T=题名(书名、题名),A=作者(责任者),K=主题词,P=出版物名称,PU=出版社名称,O=机构(作者单位、学位授予单位、专利申请人),L=中图分类号,C=学科分类号,U=全部字段,Y=年(出版发行年、学位年度、标准发布年)
AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
范例一:(K=图书馆学 OR K=情报学) AND A=范并思 AND Y=1982-2016
范例二:P=计算机应用与软件 AND (U=C++ OR U=Basic) NOT K=Visual AND Y=2011-2016
摘要:针对深度强化学习运动规划器训练速度慢的问题,基于软动作-评论家强化学习算法,研究了指导轨迹和奖励函数设计对运动规划成功率和收敛速度的影响。结果表明,在密集奖励函数的情况下,指导轨迹加快了训练速度,但对成功率的影响较小,在稀疏奖励的情况下只有使用指导轨迹才可以收敛。试验验证密集奖励函数和指导轨迹对强化学习运动规划器的训练效果提升起了重要作用。
地址:宁波市钱湖南路8号浙江万里学院(315100)
Tel:0574-88222222
招生:0574-88222065 88222066
Email:yzb@zwu.edu.cn