文献检索-宁波市创意产业特色资源库

基于分层强化学习的无人机空战多维决策: 收藏
分享
引用; 《兵工学报》2023年第6期44卷 1547-1563页; 作者：张建东王鼎涵杨啟明史国庆陆屹张耀中西北工业大学电子信息学院陕西西安710072 沈阳飞机设计研究所辽宁沈阳110035; 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现...; 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合Soft Actor-Critic算法和专家经验训练和建立元策略组,并改进传统的Option-Critic算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。; 来源：详细信息评论

基于MAXQ分层强化学习的有人机/无人机协同路径规划研究: 收藏
分享
引用; 《信息化研究》2020年第1期46卷 13-19页; 作者：程先峰严勇杰南京莱斯信息技术股份有限公司南京210007 空中交通管理系统与技术国家重点实验室南京210014; 针对有人机/无人机混合运行的复杂任务和环境下,很难为无人机协调行为设计合适的控制策略和控制参数的问题,文章设计了基于对策论的无人机强化学习模型与算法。针对无人机/有人机协调的特点,结合MAXQ分层强化学习和Multi-agent的优点,...; 针对有人机/无人机混合运行的复杂任务和环境下,很难为无人机协调行为设计合适的控制策略和控制参数的问题,文章设计了基于对策论的无人机强化学习模型与算法。针对无人机/有人机协调的特点,结合MAXQ分层强化学习和Multi-agent的优点,采用了一种基于MAXQ的Multi-agent分层强化学习的无人机协调方法,增强了无人机在混合运行复杂环境下适应环境和自协调的能力。; 来源：详细信息评论

基于启发式奖赏塑形方法的智能化攻击路径发现: 收藏
分享
引用; 《信息安全学报》2024年第3期9卷 44-58页; 作者：曾庆伟张国敏邢长友宋丽华陆军工程大学指挥控制工程学院南京210007; 渗透测试作为一种评估网络系统安全性能的重要手段,是以攻击者的角度模拟真实的网络攻击,找出网络系统中的脆弱点。而自动化渗透测试则是利用各种智能化方法实现渗透测试过程的自动化,从而大幅降低渗透测试的成本。攻击路径发现作为自...; 渗透测试作为一种评估网络系统安全性能的重要手段,是以攻击者的角度模拟真实的网络攻击,找出网络系统中的脆弱点。而自动化渗透测试则是利用各种智能化方法实现渗透测试过程的自动化,从而大幅降低渗透测试的成本。攻击路径发现作为自动化渗透测试中的关键技术,如何快速有效地在网络系统中实现智能化攻击路径发现,一直受到学术界的广泛关注。现有的自动化渗透测试方法主要基于强化学习框架实现智能化攻击路径发现,但还存在奖赏稀疏、学习效率低等问题,导致算法收敛速度慢,攻击路径发现难以满足渗透测试的高时效性需求。为此,提出一种基于势能的启发式奖赏塑形函数的分层强化学习算法(HRL-HRSF),该算法首先利用渗透测试的特性,根据网络攻击的先验知识提出了一种基于深度横向渗透的启发式方法,并利用该启发式方法设计出基于势能的启发式奖赏塑形函数,以此为智能体前期探索提供正向反馈,有效缓解了奖赏稀疏的问题;然后将该塑形函数与分层强化学习算法相结合,不仅能够有效减少环境状态空间与动作空间大小,还能大幅度提高智能体在攻击路径发现过程中的奖赏反馈,加快智能体的学习效率。实验结果表明,HRL-HRSF相较于没有奖赏塑形的分层强化学习算法、DQN及其改进算法更加快速有效,并且随着网络规模和主机漏洞数目的增大,HRL-HRSF均能保持更好地学习效率,拥有良好的鲁棒性和泛化性。; 来源：详细信息评论

海空跨域协同兵棋AI架构设计及关键技术分析: 收藏
分享
引用; 《指挥控制与仿真》2024年第2期46卷 35-43页; 作者：苏炯铭罗俊仁陈少飞项凤涛国防科技大学智能科学学院湖南长沙410073; 以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈...; 以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。; 来源：详细信息评论

一种基于PSO的分层策略搜索算法: 收藏
分享
引用; 《模式识别与人工智能》2008年第1期21卷 98-103页; 作者：彭志平李绍平茂名学院计算机科学与技术系茂名525000; 针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通过与环境的直接交互,PSO-HPS利用具有较强全局搜索能力的粒子...; 针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通过与环境的直接交互,PSO-HPS利用具有较强全局搜索能力的粒子群对各复合子任务中的参数化策略进行进化,以获得优化的动作策略.最后以协商僵局消解的实验验证PSO-HPS是有效的,其性能明显优于HPGRL.; 来源：详细信息评论

分层决策多机空战对抗方法: 收藏
分享
引用; 《中国科学：信息科学》2022年第12期52卷 2225-2238页; 作者：王欢周旭邓亦敏刘小峰河海大学物联网工程学院常州213022 北京航空航天大学自动化科学与电气工程学院北京100191 江苏省特种机器人技术高校重点实验室常州213022; 在空战研究领域,战术决策旨在提高博弈对抗收益,进而提升战机攻击效率.现有战术决策算法大多基于规则方法设计,当应用于多机空战的复杂环境时则存在设计难度大,难以求解最优解等问题.本文提出一种分层决策多机空战对抗方法,首先,在训练...; 在空战研究领域,战术决策旨在提高博弈对抗收益,进而提升战机攻击效率.现有战术决策算法大多基于规则方法设计,当应用于多机空战的复杂环境时则存在设计难度大,难以求解最优解等问题.本文提出一种分层决策多机空战对抗方法,首先,在训练初始阶段借鉴已有人类专家经验,指导模型训练;其次,根据战术动作类型设计分层动作决策网络,降低动作决策空间维度;最后,将训练产生的对抗经验按阶段分解,降低策略学习难度.在多机空战仿真环境中进行了实验验证,相比于现有多机空战决策方法,本文提出的方法在训练收敛性和决策性能方面均具有更好的表现.; 来源：详细信息评论

两轮机器人自平衡稳定性控制仿真研究: 收藏
分享
引用; 《计算机仿真》2016年第7期33卷 383-387页; 作者：闫娟杨慧斌程武山上海工程技术大学机械工程学院上海201620; 两轮机器人自平衡控制的难点在于提高机器人达到平衡的快速性和稳定性的能力。为解决传统强化学习算法收敛速度慢,系统易发散的问题,提出一种分层强化学习算法。将目标任务分解为若干个子任务,为每个子任务寻找最优策略,当所有的子目标...; 两轮机器人自平衡控制的难点在于提高机器人达到平衡的快速性和稳定性的能力。为解决传统强化学习算法收敛速度慢,系统易发散的问题,提出一种分层强化学习算法。将目标任务分解为若干个子任务,为每个子任务寻找最优策略,当所有的子目标都收敛到最优值时,目标任务也收敛到最优。在上述算法中,报酬函数可以从启发式的环境中学习,加快对未知环境的探索,快速达到自平衡并保持稳定。对两轮机器人进行自平衡仿真实验。仿真结果表明,相对于传统的强化学习算法,应用改进算法的两轮机器人的各控制状态的收敛特性及机器人的学习性能更强,有效的提高了机器人系统的稳定性控制性能。; 来源：详细信息评论

MAXQ方法在出租车问题中的应用: 收藏
分享
引用; 《茂名学院学报》2007年第1期17卷 56-59页; 作者：安岭丽彭志平李铁鹰茂名学院计算机与电子信息学院广东茂名525000 太原理工大学信息工程学院山西太原030024; 分层强化学习方法可用于解决维数灾难问题,MAXQ方法通过分层地分解值函效,将任务分解为不同层次上的子任务,从而只需在低维空间中解决问题。针对MAXQ方法。首先介绍其基本原理,然后介绍MAXQ方法在出租车问题中的应用,包括任务分解以及...; 分层强化学习方法可用于解决维数灾难问题,MAXQ方法通过分层地分解值函效,将任务分解为不同层次上的子任务,从而只需在低维空间中解决问题。针对MAXQ方法。首先介绍其基本原理,然后介绍MAXQ方法在出租车问题中的应用,包括任务分解以及类的设计,最后用实验验证了MAXQ方法比Q-学习算法收敛快。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：