文献检索-宁波市创意产业特色资源库

限定检索结果

检索条件"机构=“高雄中山大学”电机系"

共 1 条记录，以下是1-10 订阅

全选清除本页清除全部题录导出标记到"检索档案"

视图：

排序：

基于自注意力机制和策略映射重组的多智能体强化学习算法: 收藏
分享
引用; 《计算机学报》2022年第9期45卷 1842-1858页; 作者：李静晨史豪斌黄国胜西北工业大学计算机学院西安710072 “高雄中山大学”电机系中国高雄0008; 多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行...; 多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了20%,且训练过程与训练结果的稳定性提高了50%以上.多个对应的消融实验也分别验证了抽象智能体与自注意力模块的有效性,进一步为我们的结论提供支持.; 来源：详细信息评论

全选清除本页清除全部题录导出标记到“检索档案”

共1页<< <1> >>

聚类工具回到顶部