看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向CPS时空规则验证制导的安全强化学习 收藏
面向CPS时空规则验证制导的安全强化学习

面向CPS时空规则验证制导的安全强化学习

作     者:印婵 祝义 王金永 陈小颖 郝国生 YIN Chan;ZHU Yi;WANG Jinyong;CHEN Xiaoying;HAO Guosheng

作者机构:江苏师范大学计算机科学与技术学院江苏徐州221116 徐州工程学院信息工程学院江苏徐州221018 南京大学计算机科学与技术系南京210023 

基  金:国家自然科学基金(62077029,62277030) CCF-华为胡杨林基金(CCF-HuaweiFM202209) 高安全系统的软件开发与验证技术工业和信息化部重点实验室开放项目基金(NJ2020022) 江苏省研究生科研与实践创新项目(SJCX22_1261) 

出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)

年 卷 期:2025年第19卷第2期

页      码:513-527页

摘      要:深度强化学习是目前信息物理融合系统(CPS)决策中常用的一种方法。然而,当面对未知环境和复杂任务时,基于黑盒的深度强化学习方法在系统的安全性和奖励函数设置的可解释性方面存在不足。针对上述问题,提出了一种形式化时空规则验证制导的安全强化学习方法。提出了时空规则通信顺序进程(CSR-TCSP)对系统进行建模,并结合时空规约语言(STSL)和模型检测工具FDR对进程代数模型进行验证。利用系统环境模型形式化奖励状态机的结构,提出了时空规则奖励状态机(STR-RM)以指导强化学习中奖励函数的设置。此外,为了监测系统的运行并确保输出决策的安全性,设计了一个监控器及安全动作决策算法以获得更安全的状态行为策略。通过一个自动驾驶系统中的避障与变道超车实例,证明所提方法的有效性。

主 题 词:信息物理融合系统 形式化方法 进程代数 安全强化学习 自动驾驶 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.3778/j.issn.1673-9418.2312010

馆 藏 号:203157154...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分