文献检索-宁波市创意产业特色资源库

基于分层强化学习的多无人机协同围捕方法: 收藏
分享
引用; 《控制理论与应用》2025年第1期42卷 96-108页; 作者：孙懿豪闫超相晓嘉唐邓清周晗姜杰国防科技大学智能科学学院湖南长沙410073 中国运载火箭技术研究院北京100076; 针对复杂障碍环境下的动态目标围捕问题,本文提出一种基于分层强化学习的多无人机协同围捕方法.该方法包含两个层级的学习过程:底层的子策略学习和高层的子策略切换.具体而言,将协同围捕任务分解为导航避障和导航避碰两个子任务,独立学...; 针对复杂障碍环境下的动态目标围捕问题,本文提出一种基于分层强化学习的多无人机协同围捕方法.该方法包含两个层级的学习过程:底层的子策略学习和高层的子策略切换.具体而言,将协同围捕任务分解为导航避障和导航避碰两个子任务,独立学习相应的底层子策略,分别赋予无人机协同围捕目标时所需的避障与避碰技能.在此基础上,设计带有切换惩罚的稀疏回报函数训练高层的子策略切换模块,避免了对人工定义规则的依赖,实现了底层技能的自动组合.数值仿真与软件在环实验结果表明,所提方法能够显著降低围捕策略的学习难度,相较于基线方法具有最高的围捕成功率.; 来源：详细信息评论

基于分层强化学习的无人机空战多维决策: 收藏
分享
引用; 《兵工学报》2023年第6期44卷 1547-1563页; 作者：张建东王鼎涵杨啟明史国庆陆屹张耀中西北工业大学电子信息学院陕西西安710072 沈阳飞机设计研究所辽宁沈阳110035; 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现...; 针对无人机空战过程中面临的智能决策问题,基于分层强化学习架构建立无人机智能空战的多维决策模型。将空战自主决策由单一维度的机动决策扩展到雷达开关、主动干扰、队形转换、目标探测、目标追踪、干扰规避、武器选择等多个维度,实现空战主要环节的自主决策;为解决维度扩展后决策模型状态空间复杂度、学习效率低的问题,结合Soft Actor-Critic算法和专家经验训练和建立元策略组,并改进传统的Option-Critic算法,设计优化策略终止函数,提高策略的切换的灵活性,实现空战中多个维度决策的无缝切换。实验结果表明,该模型在无人机空战全流程的多维度决策问题中具有较好的对抗效果,能够控制智能体根据不同的战场态势灵活切换干扰、搜索、打击、规避等策略,达到提升传统算法性能和提高解决复杂决策效率的目的。; 来源：详细信息评论

基于分层强化学习和社会偏好的自主超车决策系统: 收藏
分享
引用; 《中国公路学报》2022年第3期35卷 115-126页; 作者：吕超鲁洪良于洋王昊阳吴绍斌北京理工大学机械与车辆学院北京100081; 针对超车过程中主车和被超越车之间的交互行为,引入心理学中的“社会偏好”来描述被超越车辆的纵向行为特征,并通过数据驱动的分类方法,提取社会偏好并将其融合在基于强化学习的自主超车决策系统设计中,通过分析大量真实超车数据中被超...; 针对超车过程中主车和被超越车之间的交互行为,引入心理学中的“社会偏好”来描述被超越车辆的纵向行为特征,并通过数据驱动的分类方法,提取社会偏好并将其融合在基于强化学习的自主超车决策系统设计中,通过分析大量真实超车数据中被超越车辆的社会偏好,认为该方法能够根据不同偏好情况产生合理的决策指令。首先,从大量真实超车数据中计算超车交互过程中被超越车辆的状态转移概率,并将其分成了3类(利他型、利己型和互惠型),并设计一种半基于模型改进的Q-learning算法,将3种社会偏好的概率考虑在决策模型训练中;然后,搭建实时的社会偏好分类器用于对被超越车辆社会偏好的实时分类;再结合换道控制器的研究结果,组合构建完整的分层强化学习自主超车系统;最后,通过实车采集数据与仿真环境进行了自主超车的联合验证。研究结果表明:考虑了社会偏好的自主超车决策系统能够对被超越车辆的社会偏好进行实时预测,进而在更加复杂的超车情况中做出合理的决策;相比于不考虑社会偏好的传统自主超车系统,构建的自主超车系统展现了更好的舒适性和稳定性。研究结果创新性地将数据驱动的社会偏好作用于超车决策过程,提升了决策的自适应性和合理性,将有助于发展安全可靠的自主超车系统。; 来源：详细信息评论

复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策: 收藏
分享
引用; 《北京工业大学学报》2023年第4期49卷 403-414页; 作者：殷辰堃纪宏萱张严心北京交通大学电子信息工程学院北京100044; 机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层...; 机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于SAC的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性.; 来源：详细信息评论

基于改进分层强化学习的CPS指令多目标动态优化分配算法: 收藏
分享
引用; 《中国电机工程学报》2011年第19期31卷 90-96页; 作者：余涛王宇名叶文加刘前进华南理工大学电力学院广东省广州市510640 广东电网公司中山供电局广东省中山市528400; 应用经典强化学习方法的控制性能标准(control performance standard,CPS)下自动发电控制(automatic generation control,AGC)指令(CPS指令)由调度端至电网各台机组的分配过程不可避免出现维数灾难问题。提出应用分层强化学习的方法,将...; 应用经典强化学习方法的控制性能标准(control performance standard,CPS)下自动发电控制(automatic generation control,AGC)指令(CPS指令)由调度端至电网各台机组的分配过程不可避免出现维数灾难问题。提出应用分层强化学习的方法,将全网机组按调频时延做初次分类,CPS指令逐层分配形成任务分层结构。在分层Q学习算法层与层之间引入一个时变协调因子,改进的分层Q学习算法有效提高原算法收敛速度。奖励函数中设计不同的权值线性组合,展示保守及乐观控制下系统CPS控制水平和调节成本的变化关系。南方电网统计性仿真分析表明,改进分层Q学习算法较分层Q学习算法平均收敛时间缩短47%,在复杂随机扰动的环境中改进算法能有效提高系统CPS考核合格率,并降低调节成本约5%。; 来源：详细信息评论

分层强化学习中的并行自动分层方法研究: 收藏
分享
引用; 《计算机工程与设计》2007年第2期28卷 422-424页; 作者：沈晶顾国昌刘海波哈尔滨工程大学计算机科学与技术学院黑龙江哈尔滨150001; 为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多...; 为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多智能体并行学习生成各子空间上内部策略,最终生成Option。以二维有障碍栅格空间内两点间最短路径规划为任务背景给出了算法并进行了仿真实验和分析,结果表明,并行自动分层方法生成任务层次结构的速度明显快于以往的串行自动分层方法。本文的方法适用于空间探测、路径规划、追逃等类问题领域。; 来源：详细信息评论

基于分层强化学习的数字化输电线路路径规划研究: 收藏
分享
引用; 《电测与仪表》2022年第4期59卷 91-97页; 作者：宋涛李丹路宁国家电网有限公司特高压建设分公司北京100052 北京道亨软件股份有限公司北京100012; 在输电线路的设计中,使用三维数字化设计技术可以显著提升地形的划分精度,然而地形划分精度的提升会使得地形栅格矩阵维度呈指数级增加,导致路径规划过程中出现维度灾难问题。为解决该问题,研究了一种基于分层强化学习的数字化输电线路...; 在输电线路的设计中,使用三维数字化设计技术可以显著提升地形的划分精度,然而地形划分精度的提升会使得地形栅格矩阵维度呈指数级增加,导致路径规划过程中出现维度灾难问题。为解决该问题,研究了一种基于分层强化学习的数字化输电线路路径规划方法。建立输电线路的三维数字化云平台,使用不同比例尺对地形数据进行重采样,将原始的地形重构为粗粒度和细粒度的两层栅格图,使用基于MAXQ算法的分层强化学习进行路径规划,从而解决了细粒度栅格单元带来的维度灾难问题,同时又保持了精确性的优势。实际算例表明,在地形划分精度提高、传统方法无法收敛的情况下,提出的方法仍能保持收敛,并相较传统方法不合理的跨越区域更少,降低了路径规划成本。; 来源：详细信息评论

基于分层强化学习的联合作战仿真作战决策算法: 收藏
分享
引用; 《火力与指挥控制》2021年第10期46卷 140-146页; 作者：于博文吕明张捷南京理工大学南京210094; 如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作...; 如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作战仿真作战决策算法,以空地一体化联合作战为背景进行作战想定,结合自主设计的作战原型系统,分析了武器装备体系作战决策流程,对分层强化学习的层次结构、奖励函数的设计、决策网络结构和训练方法进行了详细说明。通过自主开发的仿真平台对算法的有效性进行验证,为联合作战中指挥决策的适应性机制问题提供较为有效的解决方法和辅助参考价值。; 来源：详细信息评论

基于分层强化学习的自动驾驶车辆掉头问题研究: 收藏
分享
引用; 《计算机应用研究》2022年第10期39卷 3008-3012,3045页; 作者：曹洁邵紫旋侯亮兰州理工大学计算机与通信学院兰州730050; 调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学模型,并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外还针对调头任务中的稀疏奖励问...; 调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学模型,并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外还针对调头任务中的稀疏奖励问题,结合分层强化学习和近端策略优化算法提出了分层近端策略优化算法。在简单和复杂场景的实验中,该算法相比于其他算法能够更快地学习到策略,并且具有更高的掉头成功率。; 来源：详细信息评论

基于半马氏博弈模型的分层强化学习研究: 收藏
分享
引用; 《计算机工程与设计》2012年第9期33卷 3558-3562页; 作者：李誌胡坤余雪丽太原理工大学计算机科学与技术学院山西太原030024; 针对多Agent强化学习研究中面临的非马尔可夫环境和维数灾难问题,提出了一种半马氏博弈模型和MAHRL(multi-agent hierarchical reinforcement learning)协同框架。该模型弱化了系统对外界环境的要求,引入了随机时间步和通信策略的概念,...; 针对多Agent强化学习研究中面临的非马尔可夫环境和维数灾难问题,提出了一种半马氏博弈模型和MAHRL(multi-agent hierarchical reinforcement learning)协同框架。该模型弱化了系统对外界环境的要求,引入了随机时间步和通信策略的概念,更符合MAHRL研究的实际情况;协同框架中分别用SMG和SMDP模型对不同子任务进行建模,明确了Agent之间的协同机制。通过实验证明了SMG模型和协同框架的有效性和优越性。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：