看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于离散扩散模型的序列到序列文本生成方法 收藏
基于离散扩散模型的序列到序列文本生成方法

基于离散扩散模型的序列到序列文本生成方法

作     者:蒋航 蔡国永 李思慧 JIANG Hang;CAI Guoyong;LI Sihui

作者机构:桂林电子科技大学计算机与信息安全学院广西桂林541004 广西可信软件重点实验室广西桂林541004 

基  金:国家自然科学基金(62366010) 广西自然科学基金(2024GXNSFAA010374) 

出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)

年 卷 期:2025年第19卷第3期

页      码:764-773页

摘      要:扩散语言模型是目前非自回归模型中最具潜力的语言模型,有望取代饱受推理速度缓慢问题拖累的自回归语言模型,实现高效且无损于质量的文本生成。文本摘要生成、机器翻译、对话生成等序列到序列的生成任务是扩散语言模型经常遇到的实际应用场景,如何更好更快地实现序列到序列的文本生成一直是自然语言处理领域的研究重点。为了实现上述目标,通过推导离散扩散模型训练目标的上界简化了扩散模型的训练过程,随后引入并改造了条件掩码语言模型的遮掩-预测解码策略作为扩散模型的推理算法,提升了模型的生成质量。为了进一步提升离散扩散模型在推理的前几轮生成文本的质量,还提出了正弦噪音调度,相比于原来的线性噪音调度,时间步中高噪音区间变得更大了,模型将更专注于学习如何从高噪音数据中恢复数据,从而提升在推理的前几轮中生成文本的质量。受到课程学习策略的启发,设计了新的时间步采样分布,通过操纵时间步的采样实现由易到难的学习。在公开数据集上的实验表明,提出的方法能有效提升模型的性能,在WMT16 EN-RO数据集上,扩散模型仅用自回归基线一半的推理时间,就能推理出相同生成质量的文本。

主 题 词:扩散模型 语言模型 文本生成 序列到序列 非自回归模型 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3778/j.issn.1673-9418.2405063

馆 藏 号:203157514...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分