看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Rule-N/MSP:智能体自我博弈训练方法 收藏
Rule-N/MSP:智能体自我博弈训练方法

Rule-N/MSP:智能体自我博弈训练方法

作     者:张人文 赖俊 陈希亮 赵春宇 朱梓涵 ZHANG Renwen;LAI Jun;CHEN Xiliang;ZHAO Chunyu;ZHU Zihan

作者机构:陆军工程大学指挥控制工程学院江苏南京210007 

基  金:国家自然科学基金(61806221) 

出 版 物:《陆军工程大学学报》 (Journal of Army Engineering University of PLA)

年 卷 期:2023年第2卷第6期

页      码:39-46页

摘      要:针对对抗性仿真实验环境缺数据、少知识、难学习,智能体策略突破困难的问题,结合课程学习(curriculum learning,CL)思想,提出一种基于Rule-N/MSP体系的智能体自我博弈(self-play,SP)训练方法。通过设计分级课程,采用专家经验设计规则耦合的智能体对手,引导智能体进行热启动,初步掌握决策能力;开展经典自我博弈(naive SP,NSP)训练,丰富对战数据,稳步提升能力;进行成长式自我博弈(mature SP,MSP)训练,固强补弱,寻求策略突破。形成Rule-N/MSP训练方法,智能体决策能力不断提升,进一步提高智能体训练效率。构建对抗性仿真实验环境进行实验验证,发现使用该方法训练的智能体较仅通过规则对战训练的智能体胜率提高约12%,证明了方法的有效性,为智能决策领域尤其是智能体训练研究提供了有益借鉴。

主 题 词:对抗性环境 智能体 自我博弈 课程学习 训练方法 

学科分类:11[军事学] 12[管理学] 1106[1106] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 110602[110602] 0812[工学-测绘类] 

D O I:10.12018/j.issn.2097-0730.20230417001

馆 藏 号:203125233...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分