文献详情 >改进的DDPG对话策略优化算法收藏

改进的DDPG对话策略优化算法

作者：赵崟江李艳玲林民 ZHAO Yin-jiang;LI Yan-ling;LIN Min

基　　金：国家自然科学基金项目(61562068、61806103) 内蒙古自然科学基金项目(2017MS0607) 内蒙古民委蒙古文信息化专项扶持子基金项目(MW-2014-MGYWXXH-01)

出版物：《计算机工程与设计》 (Computer Engineering and Design)

年卷期：2021年第42卷第2期

页码：411-418页

摘要：针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模型(又称世界模型)来模拟真实用户提问;在整个训练过程中,代理分别与用户模拟器和世界模型交互,结合规划交替使用真实用户经验和模拟用户经验,改进对话策略。实验结果表明,该方法能够加快模型的收敛速度,提升任务成功率。

主题词：对话策略优化代理 DDPG算法世界模型用户模拟器规划

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

D　O　I：10.16208/j.issn1000-7024.2021.02.017

馆藏号：203102047...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

改进的DDPG对话策略优化算法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

改进的DDPG对话策略优化算法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：