看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策... 收藏
基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法

基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法

作     者:杨璐 王一权 刘佳琦 段玉林 张荣辉 YANG Lu;WANG Yiquan;LIU Jiaqi;DUAN Yulin;ZHANG Ronghui

作者机构:天津理工大学天津市先进机电系统设计与智能控制重点实验室天津300384 天津理工大学机电工程国家级实验教学示范中心天津300384 中国农业科学院农业资源与农业区划研究所北京100081 中山大学广东省智能交通系统重点实验室广州510275 

基  金:中国农业科学院国际农业科学计划项目(CAAS-ZDRW202107) 国家自然科学基金项目(52172350、51775565) 天津市研究生科研创新项目(2020YJSZXS05)资助 

出 版 物:《交通信息与安全》 (Journal of Transport Information and Safety)

年 卷 期:2022年第40卷第1期

页      码:144-152页

摘      要:针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高,比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。

主 题 词:自动驾驶 端到端决策 深度强化学习 动作空间 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 082304[082304] 081104[081104] 080204[080204] 0802[工学-机械学] 0835[0835] 0811[工学-水利类] 0823[工学-农业工程类] 0812[工学-测绘类] 

D O I:10.3963/j.jssn.1674-4861.2022.01.017

馆 藏 号:203109348...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分