看过本文的还看了

相关文献

该作者的其他文献

文献详情 >广义行为正则化离线Actor-Critic 收藏
广义行为正则化离线Actor-Critic

广义行为正则化离线Actor-Critic

作     者:程玉虎 黄龙阳 侯棣元 张佳志 陈俊龙 王雪松 CHENG Yu-Hu;HUANG Long-Yang;HOU Di-Yuan;ZHANG Jia-Zhi;CHEN Jun-Long;WANG Xue-Song

作者机构:中国矿业大学信息与控制工程学院江苏徐州221116 华南理工大学计算机科学与工程学院广州510006 

基  金:国家自然科学基金项目(62176259,61976215) 江苏省重点研发计划项目(BE2022095)资助 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2023年第46卷第4期

页      码:843-855页

摘      要:行为正则化Actor-Critic(BRAC)是一种离线强化学习算法,通过将当前策略与行为策略之间的Kullback-Leibler(KL)散度作为策略目标函数的正则化项来缓解分布偏移问题.但是,由于KL散度是一种无界的分布差异度量,在策略差异过大时,策略目标函数中的累积期望回报项将仅对策略改进发挥有限的作用,从而导致最终学到的策略性能较差.针对该问题,将当前策略与行为策略之间的斜对称Jensen-Shannon(JS)散度作为策略目标函数的正则化项,提出了一种广义行为正则化离线Actor-Critic(GOACBR)算法.理论分析表明:由于斜对称JS散度有界,将其作为正则化项有助于降低策略性能差异.进一步,针对行为策略未知导致难以直接计算当前策略和行为策略间斜对称JS散度的问题,设计了一个辅助网络来对其进行间接估计.最后,给出了GOACBR的收敛性理论证明.在D4RL基准数据集上的评估结果表明:相较于BRAC,GOACBR在所有测试任务上获得的平均累积回报总和提升了289.8%.相关代码公布在https://***/houge1996/GOAC.

主 题 词:离线Actor-Critic 行为正则化 斜对称JS散度 分布偏移 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.11897/SP.J.1016.2023.00843

馆 藏 号:203121098...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分