文献检索-宁波市创意产业特色资源库

限定检索结果

检索条件"主题词=值函数逼近"

共 2 条记录，以下是1-10 订阅

全选清除本页清除全部题录导出标记到"检索档案"

视图：

排序：

连续空间增量最近邻时域差分学习: 收藏
分享
引用; 《控制与决策》2014年第12期29卷 2121-2128页; 作者：张春元朱清新钟声电子科技大学计算机科学与工程学院成都611731 海南大学信息科学技术学院海口570228; 针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近其值函数与策略,并结合TD算法对词典中各实例的值函数和资...; 针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近其值函数与策略,并结合TD算法对词典中各实例的值函数和资格迹迭代更新.就框架各主要组成部分给出多种设计方案,并对其收敛性进行理论分析.对24种方案组合进行仿真验证的实验结果表明,SNDN组合具有较好的学习性能和计算效率.; 来源：详细信息评论

基于强化学习的飞行自动驾驶仪设计: 收藏
分享
引用; 《电子设计工程》2013年第10期21卷 45-47页; 作者：南杨李中健叶文伟西北工业大学自动化学院中国人民解放军92261部队; 针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分...; 针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分割为若干组,在不同的飞行状态时,调取不同组中的动作;其次,构建了BP神经网络,通过飞行过程中的立即奖赏,更新网络的值函数映射;最后,通过数字仿真验证了强化学习自动驾驶仪的性能,仿真结果表明,该算法具有良好的动态和稳态性能。; 来源：详细信息评论

全选清除本页清除全部题录导出标记到“检索档案”

共1页<< <1> >>

聚类工具回到顶部