看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于强化学习的多无人车协同围捕方法 收藏
基于强化学习的多无人车协同围捕方法

基于强化学习的多无人车协同围捕方法

作     者:苏牧青 王寅 濮锐敏 余萌 SU Muqing;WANG Yin;PU Ruimin;YU Meng

作者机构:南京航空航天大学航天学院南京211106 南京航空航天大学航空航天结构力学及控制全国重点实验室南京210016 

基  金:航空科学基金资助项目(ASFC-20175152) 南京航空航天大学实验技术研究与开发课题资助项目(SYJS202311Z) 

出 版 物:《工程科学学报》 (Chinese Journal of Engineering)

年 卷 期:2024年第46卷第7期

页      码:1237-1250页

摘      要:本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%.

主 题 词:无人车 协同围捕 柔性执行者-评论家算法 注意力机制 奖励函数设计 

学科分类:08[工学] 080502[080502] 0805[工学-能源动力学] 

核心收录:

D O I:10.13374/j.issn2095-9389.2023.09.15.004

馆 藏 号:203128098...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分