看过本文的还看了

相关文献

该作者的其他文献

文献详情 >连续空间中的一种动作加权行动者评论家算法 收藏
连续空间中的一种动作加权行动者评论家算法

连续空间中的一种动作加权行动者评论家算法

作     者:刘全 章鹏 钟珊 钱炜晟 翟建伟 LIU Ouan ZHANG Peng HONG Shan QIAN Wei-Sheng ZHAI Jian-Wei

作者机构:苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012 

基  金:国家自然科学基金(61472262 61502323 61502329) 江苏省自然科学基金(BK2012616) 江苏省高校自然科学研究项目(13KJB520020) 吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04) 苏州市应用基础研究计划工业部分(SYG201422 SYG201308)资助 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2017年第40卷第6期

页      码:1252-1264页

摘      要:经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.

主 题 词:强化学习 连续空间 函数逼近 行动者评论家 梯度下降 人工智能 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.11897/SP.J.1016.2017.01252

馆 藏 号:203233423...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分