看过本文的还看了

相关文献

该作者的其他文献

文献详情 >增量式双自然策略梯度的行动者评论家算法 收藏
增量式双自然策略梯度的行动者评论家算法

增量式双自然策略梯度的行动者评论家算法

作     者:章鹏 刘全 钟珊 翟建伟 钱炜晟 ZHANG Peng LIU Quan ZHONG Shan ZHAI Jian-wei QIAN Wei-sheng

作者机构:苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心江苏南京210000 吉林大学符号计算与知识工程教育部重点实验室吉林长春130012 

基  金:国家自然科学基金资助项目(No.61272005 No.61303108 No.61373094 No.61472262 No.61502323 No.61502329) 江苏省自然科学基金资助项目(No.BK2012616) 江苏省高校自然科学研究基金资助项目(No.13KJB520020) 吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04) 苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422 No.SYG201308) 

出 版 物:《通信学报》 (Journal on Communications)

年 卷 期:2017年第38卷第4期

页      码:166-177页

摘      要:针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较。实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点。

主 题 词:强化学习 自然梯度 行动者评论家 连续空间 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.11959/j.issn.1000-436x.2017089

馆 藏 号:203225505...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分