文献详情 >基于多重指数移动平均评估的DDPG算法收藏

基于多重指数移动平均评估的DDPG算法

作者：范晶晶陈建平傅启明陆悠吴宏杰 FAN Jing-jing;CHEN Jian-ping;FU Qi-ming;LU You;WU Hong-jie

作者机构：苏州科技大学电子与信息工程学院江苏苏州215009 苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009 苏州科技大学苏州市移动网络技术与应用重点实验室江苏苏州215009 苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室江苏苏州215009 珠海米枣智能科技有限公司科研部广东珠海519000

基　　金：国家自然科学基金项目(61876217、61876121、61772357、61750110519、61772355、61702055、61672371) 江苏省重点研发计划基金项目(BE2017663)

出版物：《计算机工程与设计》 (Computer Engineering and Design)

年卷期：2021年第42卷第11期

页码：3084-3090页

摘要：针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能。将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中。实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升。

主题词：深度学习强化学习指数移动平均平均评估双重经验回放

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

D　O　I：10.16208/j.issn1000-7024.2021.11.011

馆藏号：203106023...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于多重指数移动平均评估的DDPG算法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于多重指数移动平均评估的DDPG算法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：