文献详情 >广义行为正则化离线Actor-Critic 收藏

广义行为正则化离线Actor-Critic

作者：程玉虎黄龙阳侯棣元张佳志陈俊龙王雪松 CHENG Yu-Hu;HUANG Long-Yang;HOU Di-Yuan;ZHANG Jia-Zhi;CHEN Jun-Long;WANG Xue-Song

作者机构：中国矿业大学信息与控制工程学院江苏徐州221116 华南理工大学计算机科学与工程学院广州510006

基　　金：国家自然科学基金项目(62176259,61976215) 江苏省重点研发计划项目(BE2022095)资助

出版物：《计算机学报》 (Chinese Journal of Computers)

年卷期：2023年第46卷第4期

页码：843-855页

摘要：行为正则化Actor-Critic(BRAC)是一种离线强化学习算法,通过将当前策略与行为策略之间的Kullback-Leibler(KL)散度作为策略目标函数的正则化项来缓解分布偏移问题.但是,由于KL散度是一种无界的分布差异度量,在策略差异过大时,策略目标函数中的累积期望回报项将仅对策略改进发挥有限的作用,从而导致最终学到的策略性能较差.针对该问题,将当前策略与行为策略之间的斜对称Jensen-Shannon(JS)散度作为策略目标函数的正则化项,提出了一种广义行为正则化离线Actor-Critic(GOACBR)算法.理论分析表明:由于斜对称JS散度有界,将其作为正则化项有助于降低策略性能差异.进一步,针对行为策略未知导致难以直接计算当前策略和行为策略间斜对称JS散度的问题,设计了一个辅助网络来对其进行间接估计.最后,给出了GOACBR的收敛性理论证明.在D4RL基准数据集上的评估结果表明:相较于BRAC,GOACBR在所有测试任务上获得的平均累积回报总和提升了289.8%.相关代码公布在https://***/houge1996/GOAC.

主题词：离线Actor-Critic 行为正则化斜对称JS散度分布偏移

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

核心收录：

D　O　I：10.11897/SP.J.1016.2023.00843

馆藏号：203121098...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

广义行为正则化离线Actor-Critic

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

广义行为正则化离线Actor-Critic

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：