限定检索结果

检索条件"主题词=值函数逼近"
2 条 记 录,以下是1-10 订阅
视图:
排序:
连续空间增量最近邻时域差分学习
收藏 引用
《控制与决策》2014年 第12期29卷 2121-2128页
作者:张春元 朱清新 钟声电子科技大学计算机科学与工程学院成都611731 海南大学信息科学技术学院海口570228 
针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近函数与策略,并结合TD算法对词典中各实例的函数和资...
来源:详细信息评论
基于强化学习的飞行自动驾驶仪设计
收藏 引用
《电子设计工程》2013年 第10期21卷 45-47页
作者:南杨 李中健 叶文伟西北工业大学自动化学院 中国人民解放军92261部队 
针对强化学习在连续状态连续动作空间中的维度灾难问题,利用BP神经网络算法作为值函数逼近策略,设计了自动驾驶仪。并引入动作池机制,有效避免飞行仿真中危险动作的发生。首先,建立了TD强化学习算法框架;然后根据经验将舵机动作合理分...
来源:详细信息评论
聚类工具 回到顶部