看过本文的还看了

相关文献

该作者的其他文献

文献详情 >无模型强化学习研究综述 收藏
无模型强化学习研究综述

无模型强化学习研究综述

作     者:秦智慧 李宁 刘晓彤 刘秀磊 佟强 刘旭红 QIN Zhi-hui;LI Ning;LIU Xiao-tong;LIU Xiu-lei;TONG Qiang;LIU Xu-hong

作者机构:北京材料基因工程高精尖创新中心(北京信息科技大学)北京100101 北京信息科技大学数据与科学情报分析实验室北京100101 中国科学院煤炭化学研究所煤转化国家重点实验室太原030001 中科合成油技术有限公司国家能源煤基液体燃料研发中心北京101400 中国科学院大学北京100049 

基  金:国家重点研发计划(2018YFC0830202) 北京信息科技大学“勤信人才”培育计划项目(2020) 北京信息科技大学促进高校内涵发展——信息+项目-面向大数据的竞争情报分析关键技术研究 北京市教育委员会科技计划一般项目(KM202111232003) 北京市自然基金(4204100) 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2021年第48卷第3期

页      码:180-187页

摘      要:强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。

主 题 词:人工智能 强化学习 深度强化学习 无模型强化学习 马尔可夫决策过程 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

D O I:10.11896/jsjkx.200700217

馆 藏 号:203102257...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分