看过本文的还看了

相关文献

该作者的其他文献

文献详情 >连续空间增量最近邻时域差分学习 收藏
连续空间增量最近邻时域差分学习

连续空间增量最近邻时域差分学习

作     者:张春元 朱清新 钟声 ZHANG Chun-yuan;ZHU Qing-xin;ZHONG Sheng

作者机构:电子科技大学计算机科学与工程学院成都611731 海南大学信息科学技术学院海口570228 

基  金:国家自然科学基金项目(61100118 60671033) 海南省自然科学基金项目(613153) 

出 版 物:《控制与决策》 (Control and Decision)

年 卷 期:2014年第29卷第12期

页      码:2121-2128页

摘      要:针对连续空间强化学习问题,提出一种基于局部加权学习的增量最近邻时域差分(TD)学习框架.通过增量方式在线选取部分已观测状态构建实例词典,采用新观测状态的范围最近邻实例逼近其值函数与策略,并结合TD算法对词典中各实例的值函数和资格迹迭代更新.就框架各主要组成部分给出多种设计方案,并对其收敛性进行理论分析.对24种方案组合进行仿真验证的实验结果表明,SNDN组合具有较好的学习性能和计算效率.

主 题 词:时域差分学习 值函数逼近 策略逼近 局部加权学习 

学科分类:0820[工学-航空航天类] 12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0802[工学-机械学] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.13195/j.kzyjc.2013.1467

馆 藏 号:203116624...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分