看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多重指数移动平均评估的DDPG算法 收藏
基于多重指数移动平均评估的DDPG算法

基于多重指数移动平均评估的DDPG算法

作     者:范晶晶 陈建平 傅启明 陆悠 吴宏杰 FAN Jing-jing;CHEN Jian-ping;FU Qi-ming;LU You;WU Hong-jie

作者机构:苏州科技大学电子与信息工程学院江苏苏州215009 苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009 苏州科技大学苏州市移动网络技术与应用重点实验室江苏苏州215009 苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室江苏苏州215009 珠海米枣智能科技有限公司科研部广东珠海519000 

基  金:国家自然科学基金项目(61876217、61876121、61772357、61750110519、61772355、61702055、61672371) 江苏省重点研发计划基金项目(BE2017663) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2021年第42卷第11期

页      码:3084-3090页

摘      要:针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能。将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中。实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升。

主 题 词:深度学习 强化学习 指数移动平均 平均评估 双重经验回放 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2021.11.011

馆 藏 号:203106023...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分