看过本文的还看了

相关文献

该作者的其他文献

文献详情 >稀疏异质多智能体环境下基于强化学习的课程学习框架 收藏
稀疏异质多智能体环境下基于强化学习的课程学习框架

稀疏异质多智能体环境下基于强化学习的课程学习框架

作     者:罗睿卿 曾坤 张欣景 LUO Ruiqing;ZENG Kun;ZHANG Xinjing

作者机构:中山大学计算机学院广州510006 中国人民解放军91976部队广州510430 

基  金:国家自然科学基金(U1711266) 广东省基础与应用基础研究基金联合基金(2019A1515011078) 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2024年第51卷第1期

页      码:301-309页

摘      要:现代战争的战场较大且兵种较多,利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力,从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化:各个智能体的同质化以及作战单位分布稠密。实际战争场景中并不总是满足这两个设定,可能包含多种异质的智能体以及作战单位分布稀疏。为了探索强化学习在更多场景中的应用,分别就这两方面进行改进研究。首先,设计并实现了多尺度多智能体抢滩登陆环境M2ALE,M2ALE针对上述两个简化设定做了针对性的复杂化,添加了多种异质智能体和作战单位分布稀疏的场景,这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性,使用常用的多智能体算法通常难以训练。其次,提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点。HMACL包括3个模块:1)任务生成模块(STG),用于生成源任务以引导智能体训练;2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性,提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略,实现了异质智能体系统中的参数共享;3)训练模块(Trainer),通过从STG获取源任务,从CPI获取最新的策略,使用任意MARL算法训练当前的最新策略。HMACL可以缓解常用MARL算法在M2ALE环境中的探索难问题和非平稳性问题,引导多智能体系统在M2ALE环境中的学习过程。实验结果表明,使用HMACL使得MARL算法在M2ALE环境下的采样效率和最终性能得到大幅度的提升。

主 题 词:多智能体强化学习 作战仿真 课程学习 参数共享 多智能体环境设计 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

D O I:10.11896/jsjkx.230500146

馆 藏 号:203125331...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分