看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进强化学习的多智能体追逃对抗 收藏
基于改进强化学习的多智能体追逃对抗

基于改进强化学习的多智能体追逃对抗

作     者:薛雅丽 叶金泽 李寒雁 XUE Ya-li;YE Jin-ze;LI Han-yan

作者机构:南京航空航天大学自动化学院江苏南京211106 

基  金:国家自然科学基金资助项目(62073164) 

出 版 物:《浙江大学学报(工学版)》 (Journal of Zhejiang University:Engineering Science)

年 卷 期:2023年第57卷第8期

页      码:1479-1486,1515页

摘      要:针对多智能体追逃问题,提出基于优先经验回放和解耦奖励函数的多智能体强化学习算法.将多智能体深度确定性策略梯度算法(MADDPG)和双延迟-确定策略梯度算法(TD3)相结合,提出多智能体双延迟-确定策略梯度算法(MATD3).针对多智能体追逃问题中奖励函数存在大量稀疏奖励的问题,提出利用优先经验回放方法确定经验优先度以及采样高价值经验.设计解耦奖励函数,将奖励函数分为个体奖励和联合奖励以最大化全局奖励和局部奖励,提出DEPER-MATD3算法.基于此算法设计仿真实验,并与其他算法对比,实验结果表明,该算法有效解决了过估计问题,且耗时相比MATD3算法有所减少.在解耦奖励函数环境下该算法训练的追击者的全局平均奖励升高,追击者有更大的概率追击到逃逸者.

主 题 词:追逃对抗 强化学习 经验回放 多智能体 奖励函数 

学科分类:081104[081104] 08[工学] 0811[工学-水利类] 

核心收录:

D O I:10.3785/j.issn.1008-973X.2023.08.001

馆 藏 号:203123307...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分