限定检索结果

检索条件"主题词=分层强化学习"
18 条 记 录,以下是1-10 订阅
视图:
排序:
基于分层强化学习的低过载比拦截制导律
收藏 引用
《空天防御》2024年 第1期7卷 40-47页
作者:王旭 蔡远利 张学成 张荣良 韩成龙西安交通大学电子与信息学部陕西西安710049 陆军装备部驻上海地区第三军事代表室上海200031 上海机电工程研究所上海201109 
为解决低过载比和纯角度量测等约束下的三维机动目标拦截制导问题,提出了一种基于分层强化学习的拦截制导律。首先将问题建模为马尔科夫决策过程模型,并考虑拦截能量消耗与弹目视线角速率,设计了一种启发式奖赏函数。其次通过构建具有...
来源:详细信息评论
基于分层强化学习的多智能体博弈策略生成方法
收藏 引用
《无线电工程》2024年 第6期54卷 1361-1367页
作者:畅鑫 李艳斌 刘东辉中国电子科技集团公司第五十四研究所河北石家庄050081 石家庄铁道大学管理学院河北石家庄050043 石家庄铁道大学工程建设管理研究中心河北石家庄050043 
典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策...
来源:详细信息评论
基于分层强化学习和社会偏好的自主超车决策系统
收藏 引用
《中国公路学报》2022年 第3期35卷 115-126页
作者:吕超 鲁洪良 于洋 王昊阳 吴绍斌北京理工大学机械与车辆学院北京100081 
针对超车过程中主车和被超越车之间的交互行为,引入心理学中的“社会偏好”来描述被超越车辆的纵向行为特征,并通过数据驱动的分类方法,提取社会偏好并将其融合在基于强化学习的自主超车决策系统设计中,通过分析大量真实超车数据中被超...
来源:详细信息评论
复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策
收藏 引用
《北京工业大学学报》2023年 第4期49卷 403-414页
作者:殷辰堃 纪宏萱 张严心北京交通大学电子信息工程学院北京100044 
机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层Soft Actor-Critic(SAC)智能体组成,高层...
来源:详细信息评论
基于改进分层强化学习的CPS指令多目标动态优化分配算法
收藏 引用
《中国电机工程学报》2011年 第19期31卷 90-96页
作者:余涛 王宇名 叶文加 刘前进华南理工大学电力学院广东省广州市510640 广东电网公司中山供电局广东省中山市528400 
应用经典强化学习方法的控制性能标准(control performance standard,CPS)下自动发电控制(automatic generation control,AGC)指令(CPS指令)由调度端至电网各台机组的分配过程不可避免出现维数灾难问题。提出应用分层强化学习的方法,将...
来源:详细信息评论
分层强化学习中的并行自动分层方法研究
收藏 引用
《计算机工程与设计》2007年 第2期28卷 422-424页
作者:沈晶 顾国昌 刘海波哈尔滨工程大学计算机科学与技术学院黑龙江哈尔滨150001 
为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层强化学习方法为理论框架,首先由多智能体合作对状态空间进行并行探测并集中聚类产生状态子空间,然后多...
来源:详细信息评论
基于分层强化学习的数字化输电线路路径规划研究
收藏 引用
《电测与仪表》2022年 第4期59卷 91-97页
作者:宋涛 李丹 路宁国家电网有限公司特高压建设分公司北京100052 北京道亨软件股份有限公司北京100012 
在输电线路的设计中,使用三维数字化设计技术可以显著提升地形的划分精度,然而地形划分精度的提升会使得地形栅格矩阵维度呈指数级增加,导致路径规划过程中出现维度灾难问题。为解决该问题,研究了一种基于分层强化学习的数字化输电线路...
来源:详细信息评论
基于分层强化学习的联合作战仿真作战决策算法
收藏 引用
《火力与指挥控制》2021年 第10期46卷 140-146页
作者:于博文 吕明 张捷南京理工大学南京210094 
如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作...
来源:详细信息评论
基于分层强化学习的自动驾驶车辆掉头问题研究
收藏 引用
《计算机应用研究》2022年 第10期39卷 3008-3012,3045页
作者:曹洁 邵紫旋 侯亮兰州理工大学计算机与通信学院兰州730050 
调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学模型,并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外还针对调头任务中的稀疏奖励问...
来源:详细信息评论
基于半马氏博弈模型的分层强化学习研究
收藏 引用
《计算机工程与设计》2012年 第9期33卷 3558-3562页
作者:李誌 胡坤 余雪丽太原理工大学计算机科学与技术学院山西太原030024 
针对多Agent强化学习研究中面临的非马尔可夫环境和维数灾难问题,提出了一种半马氏博弈模型和MAHRL(multi-agent hierarchical reinforcement learning)协同框架。该模型弱化了系统对外界环境的要求,引入了随机时间步和通信策略的概念,...
来源:详细信息评论
聚类工具 回到顶部