限定检索结果

检索条件"作者=钱炜晟"
2 条 记 录,以下是1-10 订阅
视图:
排序:
增量式双自然策略梯度的行动者评论家算法
收藏 引用
《通信学报》2017年 第4期38卷 166-177页
作者:章鹏 刘全 钟珊 翟建伟 钱炜晟苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心江苏南京210000 吉林大学符号计算与知识工程教育部重点实验室吉林长春130012 
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通...
来源:详细信息评论
连续空间中的一种动作加权行动者评论家算法
收藏 引用
《计算机学报》2017年 第6期40卷 1252-1264页
作者:刘全 章鹏 钟珊 钱炜晟 翟建伟苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012 
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出...
来源:详细信息评论
聚类工具 回到顶部