限定检索结果

检索条件"主题词=用户模拟器"
2 条 记 录,以下是1-10 订阅
视图:
排序:
改进判别式深度Dyna-Q的任务对话策略学习方法
收藏 引用
《广东工业大学学报》2023年 第4期40卷 9-17,23页
作者:戴彬 曾碧 魏鹏飞 黄永健广东工业大学计算机学院广东广州510006 广州轩辕研究院有限公司广东广州510000 
作为任务型对话系统中的关键一环,对话策略可以通过判别式深度Dyna-Q框架训练得到。然而,该框架在直接强化学习阶段采用原始的深度Q网络方法学习对话策略,在世界模型方面采用多层感知机作为模型的基本结构,导致对话策略的训练效率、性...
来源:详细信息评论
改进的DDPG对话策略优化算法
收藏 引用
《计算机工程与设计》2021年 第2期42卷 411-418页
作者:赵崟江 李艳玲 林民内蒙古师范大学计算机科学技术学院内蒙古呼和浩特010022 
针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其...
来源:详细信息评论
聚类工具 回到顶部