看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于DDPG算法的末制导律设计研究 收藏
基于DDPG算法的末制导律设计研究

基于DDPG算法的末制导律设计研究

作     者:刘扬 何泽众 王春宇 郭茂祖 LIU Yang;HE Ze-Zhong;WANG Chun-Yu;GUO Mao-Zu

作者机构:哈尔滨工业大学计算机科学与技术学院哈尔滨150001 北京建筑大学电气与信息工程学院北京100044 

基  金:国家自然科学基金(62071154 61671188 61976071)资助 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2021年第44卷第9期

页      码:1854-1865页

摘      要:末制导律设计是拦截系统中的关键技术,常用的比例制导律及其变型在目标大机动时性能下降,且受到导航比的影响.提出基于DDPG算法的末制导律设计方法,通过对拦截问题的环境状态和动作(控制量)进行设计,实现了从仿真环境交互数据中学习回报最优的制导律;与传统方法相比,该无模型方法更具灵活性;针对强化学习方法动作集假设偏置弱带来训练效率低的问题,进一步提出将导航比作为决策优化参数,加速了训练过程并实现动态调整比例制导律中的导航比.对比实验表明,两种强化学习末制导律设计方法获得了优于比例制导律及其变型的拦截效果,展现出良好的研究前景和潜在的应用价值.

主 题 词:末制导律 强化学习 确定性策略 归纳偏置 

学科分类:0810[工学-土木类] 12[管理学] 1201[管理学-管理科学与工程类] 0808[工学-自动化类] 0839[0839] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.11897/SP.J.1016.2021.01854

馆 藏 号:203104930...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分