文献检索-宁波市创意产业特色资源库

基于安全强化学习的主动配电网有功-无功协调优化调度: 收藏
分享
引用; 《中国电力》2024年第3期57卷 43-50页; 作者：焦昊殷岩岩吴晨刘建徐春雷徐贤孙国强国网江苏省电力有限公司电力科学研究院江苏南京211103 河海大学电气与动力工程学院江苏南京211100 国网江苏省电力有限公司江苏南京210024; 提出一种基于离线策略的安全强化学习方法,通过离线训练大量配电网历史运行数据,摆脱了传统优化方法对完备且准确模型的依赖。首先,结合配电网络参数信息,建立了基于约束马尔可夫决策过程的有功无功优化模型;其次,基于原始对偶优化法设...; 提出一种基于离线策略的安全强化学习方法,通过离线训练大量配电网历史运行数据,摆脱了传统优化方法对完备且准确模型的依赖。首先,结合配电网络参数信息,建立了基于约束马尔可夫决策过程的有功无功优化模型;其次,基于原始对偶优化法设计了新型安全强化学习方法,该方法在最大化未来折扣奖励的同时最小化成本函数;最后,在配电系统上进行仿真。仿真结果表明:所提方法能够根据配电网实时观测信息,在线生成满足复杂约束条件且具有经济效益的调度策略。; 来源：详细信息评论

基于安全强化学习的不确定二阶系统模型参考跟踪控制: 收藏
分享
引用; 《控制工程》2024年第1期31卷 80-87页; 作者：胡一帆刘克新付俊杰温广辉东南大学数学学院江苏南京210096 北京航空航天大学自动化科学与电气工程学院北京100191 紫金山实验室江苏南京211111; 针对带有不确定性动态的二阶系统模型参考轨迹跟踪控制问题,设计了一种基于鲁棒控制障碍函数的安全强化学习算法。该算法能在学习跟踪控制器的过程中保证系统避障。首先,对具有安全约束的轨迹跟踪控制强化学习问题进行建模。其次,利用...; 针对带有不确定性动态的二阶系统模型参考轨迹跟踪控制问题,设计了一种基于鲁棒控制障碍函数的安全强化学习算法。该算法能在学习跟踪控制器的过程中保证系统避障。首先,对具有安全约束的轨迹跟踪控制强化学习问题进行建模。其次,利用高斯过程模型对未知系统动力学的估计,得到鲁棒的避障控制障碍函数条件,在该条件下得到概率意义下的系统安全性保证。最后,提出基于鲁棒控制障碍函数的安全强化学习算法,得到最优模型参考轨迹跟踪控制律。仿真结果验证了所提算法的有效性。; 来源：详细信息评论

面向无人驾驶时空同步约束制导的安全强化学习: 收藏
分享
引用; 《计算机研究与发展》2021年第12期58卷 2585-2603页; 作者：王金永黄志球杨德艳 Xiaowei Huang 祝义华高洋南京航空航天大学计算机科学与技术学院南京211106 高安全系统的软件开发与验证技术工信部重点实验室(南京航空航天大学)南京211106 江苏师范大学计算机科学与技术学院江苏徐州221116 利物浦大学计算机科学系英国利物浦L693BX; 无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深...; 无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深度强化学习系统并不能保证系统的安全性和复杂任务奖励函数设置的可解释性.为此提出了一种形式化时空同步约束制导的安全强化学习方法.首先,提出了一种形式化时空同步约束规约语言,接近自然语言的安全需求规约使奖励函数的设置更具有解释性.其次,展示了时空同步自动机和状态动作空间迁移系统,保证强化学习的状态行为策略更加安全.然后,提出了结合形式化时空约束制导的安全强化学习方法.最后,通过无人驾驶汽车在高速场景变道超车的案例,验证所提方法的有效性.; 来源：详细信息评论

基于受限MDP的无模型安全强化学习方法: 收藏
分享
引用; 《软件学报》2022年第8期33卷 3086-3102页; 作者：朱斐葛洋洋凌兴宏刘全苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心江苏南京210093 江苏省计算机信息处理技术重点实验室(苏州大学)江苏苏州215006; 很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不...; 很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa(λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa(λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性.; 来源：详细信息评论

基于安全强化学习的航天器交会制导方法: 收藏
分享
引用; 《计算机科学》2023年第8期50卷 271-279页; 作者：幸林泉肖应民杨志斌韦正旻周勇高赛军南京航空航天大学计算机科学与技术学院南京211106 高安全系统的软件开发与验证技术工信部重点实验室南京211106 上海航天电子技术研究所上海201109; 随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加。近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点。障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对...; 随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加。近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点。障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对探索空间进行安全限制,这使得航天器交会制导策略设计面临挑战。为此,提出了基于安全强化学习的航天器交会制导方法。首先,设计避撞场景下航天器自主交会的马尔可夫模型,提出基于障碍预警与避撞约束的奖励机制,从而建立用于求解航天器交会制导策略的安全强化学习框架;其次,在该安全强化学习框架下,基于近端策略优化算法(PPO)和深度确定性策略梯度算法(DDPG)这两种深度强化学习算法生成了制导策略。实验结果表明,该方法能有效地进行障碍物避撞并以较高的精度完成交会。另外,通过分析两种算法的性能优劣和泛化能力,进一步证明了所提方法的有效性。; 来源：详细信息评论

安全约束下合作型多智能体TD3算法: 收藏
分享
引用; 《计算机应用研究》2023年第6期40卷 1692-1696,1701页; 作者：郝禹哲王振雷华东理工大学能源化工过程智能制造教育部重点实验室上海200237; 合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3(multi-agent constrainted twin delayed deep deterministic policy gradient)...; 合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3(multi-agent constrainted twin delayed deep deterministic policy gradient)。首先,结合注意力机制对各个智能体采取的动作与决策过程约束条件进行了协调。然后利用拉格朗日乘子构造了修正的代价函数。进而为保证算法的收敛性,保证每一个智能体能够满足预先设定的约束条件,设计了不同时间尺度分学习策略:在短时间尺度上执行Actor-Critic网络的梯度下降,在长时间尺度上对拉格朗日参数进行迭代。最后在异质和同质的合作型多智能体环境下进行实验。实验结果表明,与其他算法相比,提出的MACTD3算法始终能够获得最小的惩罚成本;通过数量的扩展性实验表明了MACTD3在不同数量智能体的情况下仍然能够满足约束条件,证明了算法的有效性与扩展性。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：