文献详情 >无模型强化学习研究综述收藏

无模型强化学习研究综述

作者：秦智慧李宁刘晓彤刘秀磊佟强刘旭红 QIN Zhi-hui;LI Ning;LIU Xiao-tong;LIU Xiu-lei;TONG Qiang;LIU Xu-hong

作者机构：北京材料基因工程高精尖创新中心(北京信息科技大学)北京100101 北京信息科技大学数据与科学情报分析实验室北京100101 中国科学院煤炭化学研究所煤转化国家重点实验室太原030001 中科合成油技术有限公司国家能源煤基液体燃料研发中心北京101400 中国科学院大学北京100049

基　　金：国家重点研发计划(2018YFC0830202) 北京信息科技大学“勤信人才”培育计划项目(2020) 北京信息科技大学促进高校内涵发展——信息+项目-面向大数据的竞争情报分析关键技术研究北京市教育委员会科技计划一般项目(KM202111232003) 北京市自然基金(4204100)

出版物：《计算机科学》 (Computer Science)

年卷期：2021年第48卷第3期

页码：180-187页

摘要：强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。

主题词：人工智能强化学习深度强化学习无模型强化学习马尔可夫决策过程

学科分类：12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类]

D　O　I：10.11896/jsjkx.200700217

馆藏号：203102257...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

无模型强化学习研究综述

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

无模型强化学习研究综述

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：