文献详情 >基于强化学习的多无人车协同围捕方法收藏

基于强化学习的多无人车协同围捕方法

作者：苏牧青王寅濮锐敏余萌 SU Muqing;WANG Yin;PU Ruimin;YU Meng

作者机构：南京航空航天大学航天学院南京211106 南京航空航天大学航空航天结构力学及控制全国重点实验室南京210016

基　　金：航空科学基金资助项目(ASFC-20175152) 南京航空航天大学实验技术研究与开发课题资助项目(SYJS202311Z)

出版物：《工程科学学报》 (Chinese Journal of Engineering)

年卷期：2024年第46卷第7期

页码：1237-1250页

摘要：本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%.

主题词：无人车协同围捕柔性执行者-评论家算法注意力机制奖励函数设计

学科分类：08[工学] 080502[080502] 0805[工学-能源动力学]

核心收录：

D　O　I：10.13374/j.issn2095-9389.2023.09.15.004

馆藏号：203128098...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于强化学习的多无人车协同围捕方法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于强化学习的多无人车协同围捕方法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：