看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合自适应评判的随机系统数据驱动策略优化 收藏
融合自适应评判的随机系统数据驱动策略优化

融合自适应评判的随机系统数据驱动策略优化

作     者:王鼎 王将宇 乔俊飞 WANG Ding;WANG Jiang-Yu;QIAO Jun-Fei

作者机构:北京工业大学信息学部北京100124 计算智能与智能系统北京市重点实验室北京100124 北京人工智能研究院北京100124 智慧环保北京实验室北京100124 

基  金:国家自然科学基金(62222301,61890930-5,62021003) 科技创新2030——“新一代人工智能”重大项目(2021ZD0112302,2021ZD0112301)资助 

出 版 物:《自动化学报》 (Acta Automatica Sinica)

年 卷 期:2024年第50卷第5期

页      码:980-990页

摘      要:自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题,但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性.本文融合自适应评判技术,建立一种数据驱动的离散随机系统折扣最优调节方法.首先,针对宽松假设下的非线性随机系统,研究带有折扣因子的无限时域最优控制问题.所提的随机系统Q-learning算法能够将初始的容许策略单调不增地优化至最优策略.基于数据驱动思想,随机系统Q-learning算法在不建立模型的情况下直接利用数据进行策略优化.其次,利用执行−评判神经网络方案,实现了随机系统Q-learning算法.最后,通过两个基准系统,验证本文提出的随机系统Q-learning算法的有效性.

主 题 词:自适应评判设计 数据驱动 离散系统 神经网络 Q-learning 随机最优控制 

学科分类:0711[理学-心理学类] 07[理学] 08[工学] 081101[081101] 0811[工学-水利类] 0812[工学-测绘类] 071102[071102] 081103[081103] 

核心收录:

D O I:10.16383/j.aas.c230678

馆 藏 号:203127982...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分