看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于分层强化学习的多智能体博弈策略生成方法 收藏
基于分层强化学习的多智能体博弈策略生成方法

基于分层强化学习的多智能体博弈策略生成方法

作     者:畅鑫 李艳斌 刘东辉 CHANG Xin;LI Yanbin;LIU Donghui

作者机构:中国电子科技集团公司第五十四研究所河北石家庄050081 石家庄铁道大学管理学院河北石家庄050043 石家庄铁道大学工程建设管理研究中心河北石家庄050043 

基  金:中国博士后科学基金(2021 M693002) 国家自然科学基金(71991485,71991481,71991480) 

出 版 物:《无线电工程》 (Radio Engineering)

年 卷 期:2024年第54卷第6期

页      码:1361-1367页

摘      要:典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策略生成方法。基于分层强化学习构建观测信息到整体价值的决策映射,以最大化整体价值作为目标构建优化问题,并推导了策略优化过程,为后续框架结构和方法实现的设计提供了理论依据;基于决策映射与优化问题构建,采用神经网络设计了模型框架,详细阐述了顶层策略控制模型和个体策略执行模型;基于策略优化方法,给出详细训练流程和算法流程;采用星际争霸多智能体对抗(StarCraft Multi-Agent Challenge,SMAC)环境,与典型多智能体方法进行性能对比。实验结果表明,该方法能够有效生成对抗策略,控制异构多智能体战胜预设对手策略,相比典型多智能体强化学习方法性能提升明显。

主 题 词:分层强化学习 多智能体博弈 深度神经网络 

学科分类:080904[080904] 0810[工学-土木类] 0809[工学-计算机类] 08[工学] 080402[080402] 0804[工学-材料学] 081001[081001] 

D O I:10.3969/j.issn.1003-3106.2024.06.004

馆 藏 号:203128229...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分