看过本文的还看了

相关文献

该作者的其他文献

文献详情 >线性时序逻辑引导的安全强化学习 收藏
线性时序逻辑引导的安全强化学习

线性时序逻辑引导的安全强化学习

作     者:李保罗 蔡明钰 阚震 LI Bao-luo;CAI Ming-yu;KAN Zhen

作者机构:中国科学技术大学自动化系合肥230026 理海大学机械工程系伯利恒18015 

基  金:国家自然科学基金面上项目(62173314) 国家自然科学基金联合基金项目(U2013601) 

出 版 物:《控制与决策》 (Control and Decision)

年 卷 期:2023年第38卷第7期

页      码:1835-1844页

摘      要:针对动态不确定环境下机器人执行复杂任务的需求,提出一种线性时序逻辑(linear temporal logic,LTL)引导的无模型安全强化学习算法,能在最大化任务完成概率的同时保证学习过程的安全性.首先,综合考虑环境中的不确定因素,构建马尔可夫决策过程(Markov decision process,MDP),再用LTL刻画智能体的复杂任务,将其转化为有多接受集的基于转移的有限确定性广义布奇自动机(transition-based limit deterministic generalized Büchi automaton,tLDGBA),并通过接受边界函数构建可记录当前待访问接受集的约束型tLDGBA(constrained tLDGBA,ctLDGBA);其次,构建乘积MDP用于强化学习搜索最优策略;最后,基于LTL对安全性的描述和MDP的观测函数构建安全博弈,并根据安全博弈设计安全盾机制保证系统在学习过程中的安全性.严格的分析证明了所提出的算法能获得最大化LTL任务完成概率的最优策略.仿真结果验证了LTL引导的安全强化学习算法的有效性.

主 题 词:线性时序逻辑 自动机 马尔可夫决策过程 强化学习 安全博弈 运动规划 

学科分类:080202[080202] 08[工学] 0804[工学-材料学] 0802[工学-机械学] 

核心收录:

D O I:10.13195/j.kzyjc.2021.1808

馆 藏 号:203122366...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分