限定检索结果

检索条件"主题词=安全强化学习"
6 条 记 录,以下是1-10 订阅
视图:
排序:
基于安全强化学习的主动配电网有功-无功协调优化调度
收藏 引用
《中国电力》2024年 第3期57卷 43-50页
作者:焦昊 殷岩岩 吴晨 刘建 徐春雷 徐贤 孙国强国网江苏省电力有限公司电力科学研究院江苏南京211103 河海大学电气与动力工程学院江苏南京211100 国网江苏省电力有限公司江苏南京210024 
提出一种基于离线策略的安全强化学习方法,通过离线训练大量配电网历史运行数据,摆脱了传统优化方法对完备且准确模型的依赖。首先,结合配电网络参数信息,建立了基于约束马尔可夫决策过程的有功无功优化模型;其次,基于原始对偶优化法设...
来源:详细信息评论
基于安全强化学习的不确定二阶系统模型参考跟踪控制
收藏 引用
《控制工程》2024年 第1期31卷 80-87页
作者:胡一帆 刘克新 付俊杰 温广辉东南大学数学学院江苏南京210096 北京航空航天大学自动化科学与电气工程学院北京100191 紫金山实验室江苏南京211111 
针对带有不确定性动态的二阶系统模型参考轨迹跟踪控制问题,设计了一种基于鲁棒控制障碍函数的安全强化学习算法。该算法能在学习跟踪控制器的过程中保证系统避障。首先,对具有安全约束的轨迹跟踪控制强化学习问题进行建模。其次,利用...
来源:详细信息评论
面向无人驾驶时空同步约束制导的安全强化学习
收藏 引用
《计算机研究与发展》2021年 第12期58卷 2585-2603页
作者:王金永 黄志球 杨德艳 Xiaowei Huang 祝义 华高洋南京航空航天大学计算机科学与技术学院南京211106 高安全系统的软件开发与验证技术工信部重点实验室(南京航空航天大学)南京211106 江苏师范大学计算机科学与技术学院江苏徐州221116 利物浦大学计算机科学系英国利物浦L693BX 
无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深...
来源:详细信息评论
基于受限MDP的无模型安全强化学习方法
收藏 引用
《软件学报》2022年 第8期33卷 3086-3102页
作者:朱斐 葛洋洋 凌兴宏 刘全苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心江苏南京210093 江苏省计算机信息处理技术重点实验室(苏州大学)江苏苏州215006 
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不...
来源:详细信息评论
基于安全强化学习的航天器交会制导方法
收藏 引用
《计算机科学》2023年 第8期50卷 271-279页
作者:幸林泉 肖应民 杨志斌 韦正旻 周勇 高赛军南京航空航天大学计算机科学与技术学院南京211106 高安全系统的软件开发与验证技术工信部重点实验室南京211106 上海航天电子技术研究所上海201109 
随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加。近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点。障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对...
来源:详细信息评论
安全约束下合作型多智能体TD3算法
收藏 引用
《计算机应用研究》2023年 第6期40卷 1692-1696,1701页
作者:郝禹哲 王振雷华东理工大学能源化工过程智能制造教育部重点实验室上海200237 
合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3(multi-agent constrainted twin delayed deep deterministic policy gradient)...
来源:详细信息评论
聚类工具 回到顶部