看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进近端策略优化的空战自主决策研究 收藏
基于改进近端策略优化的空战自主决策研究

基于改进近端策略优化的空战自主决策研究

作     者:钱殿伟 齐红敏 刘振 周志明 易建强 Qian Dianwei;Qi Hongmin;Liu Zhen;Zhou Zhiming;Yi Jianqiang

作者机构:华北电力大学控制与计算机工程学院北京102206 中国科学院自动化研究所北京100190 

出 版 物:《系统仿真学报》 (Journal of System Simulation)

年 卷 期:2024年第36卷第9期

页      码:2208-2218页

摘      要:针对传统强化学习在空战自主决策应用中信息冗余度高、收敛速度慢等问题,提出一种基于双重观测与复合奖励的近端策略优化空战自主决策算法。设计了以交互信息为主、个体特征信息为辅的双重观测信息,降低战场信息高度冗余对训练效率的影响;设计了结果奖励和过程奖励相结合的复合奖励函数,提高了训练过程收敛速度;采用广义优势函数估计,改进了近端策略优化算法,提高优势函数估计的准确性。仿真结果表明:在对战固定程控对手和矩阵博弈对手实验场景中,该算法决策模型均可根据战场态势准确进行自主决策,完成空战任务。

主 题 词:强化学习 空战自主决策 双重观测 复合奖励 广义优势函数估计 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

核心收录:

D O I:10.16182/j.issn1004731x.joss.23-0584

馆 藏 号:203122604...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分