限定检索结果

检索条件"机构=广州轩辕研究院有限公司"
1 条 记 录,以下是1-10 订阅
视图:
排序:
改进判别式深度Dyna-Q的任务对话策略学习方法
收藏 引用
《广东工业大学学报》2023年 第4期40卷 9-17,23页
作者:戴彬 曾碧 魏鹏飞 黄永健广东工业大学计算机学院广东广州510006 广州轩辕研究院有限公司广东广州510000 
作为任务型对话系统中的关键一环,对话策略可以通过判别式深度Dyna-Q框架训练得到。然而,该框架在直接强化学习阶段采用原始的深度Q网络方法学习对话策略,在世界模型方面采用多层感知机作为模型的基本结构,导致对话策略的训练效率、性...
来源:详细信息评论
聚类工具 回到顶部