文献详情 >融合自适应评判的随机系统数据驱动策略优化收藏

融合自适应评判的随机系统数据驱动策略优化

作者：王鼎王将宇乔俊飞 WANG Ding;WANG Jiang-Yu;QIAO Jun-Fei

作者机构：北京工业大学信息学部北京100124 计算智能与智能系统北京市重点实验室北京100124 北京人工智能研究院北京100124 智慧环保北京实验室北京100124

基　　金：国家自然科学基金(62222301,61890930-5,62021003) 科技创新2030——“新一代人工智能”重大项目(2021ZD0112302,2021ZD0112301)资助

出版物：《自动化学报》 (Acta Automatica Sinica)

年卷期：2024年第50卷第5期

页码：980-990页

摘要：自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题,但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性.本文融合自适应评判技术,建立一种数据驱动的离散随机系统折扣最优调节方法.首先,针对宽松假设下的非线性随机系统,研究带有折扣因子的无限时域最优控制问题.所提的随机系统Q-learning算法能够将初始的容许策略单调不增地优化至最优策略.基于数据驱动思想,随机系统Q-learning算法在不建立模型的情况下直接利用数据进行策略优化.其次,利用执行−评判神经网络方案,实现了随机系统Q-learning算法.最后,通过两个基准系统,验证本文提出的随机系统Q-learning算法的有效性.

主题词：自适应评判设计数据驱动离散系统神经网络 Q-learning 随机最优控制

学科分类：0711[理学-心理学类] 07[理学] 08[工学] 081101[081101] 0811[工学-水利类] 0812[工学-测绘类] 071102[071102] 081103[081103]

核心收录：

D　O　I：10.16383/j.aas.c230678

馆藏号：203127982...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

融合自适应评判的随机系统数据驱动策略优化

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

融合自适应评判的随机系统数据驱动策略优化

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：