看过本文的还看了

相关文献

该作者的其他文献

文献详情 >改进的DDPG对话策略优化算法 收藏
改进的DDPG对话策略优化算法

改进的DDPG对话策略优化算法

作     者:赵崟江 李艳玲 林民 ZHAO Yin-jiang;LI Yan-ling;LIN Min

作者机构:内蒙古师范大学计算机科学技术学院内蒙古呼和浩特010022 

基  金:国家自然科学基金项目(61562068、61806103) 内蒙古自然科学基金项目(2017MS0607) 内蒙古民委蒙古文信息化专项扶持子基金项目(MW-2014-MGYWXXH-01) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2021年第42卷第2期

页      码:411-418页

摘      要:针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模型(又称世界模型)来模拟真实用户提问;在整个训练过程中,代理分别与用户模拟器和世界模型交互,结合规划交替使用真实用户经验和模拟用户经验,改进对话策略。实验结果表明,该方法能够加快模型的收敛速度,提升任务成功率。

主 题 词:对话策略优化 代理 DDPG算法 世界模型 用户模拟器 规划 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2021.02.017

馆 藏 号:203102047...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分