看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合情感与语义的多模态对话生成方法 收藏
融合情感与语义的多模态对话生成方法

融合情感与语义的多模态对话生成方法

作     者:张翼英 马彩霞 张楠 柳依阳 王德龙 ZHANG Yiying;MA Caixia;ZHANG Nan;LIU Yiyang;WANG Delong

作者机构:天津科技大学人工智能学院天津300457 

基  金:国家自然科学基金资助项目(61807024) 

出 版 物:《天津科技大学学报》 (Journal of Tianjin University of Science & Technology)

年 卷 期:2023年第38卷第3期

页      码:52-60页

摘      要:近年来,语音对话等一系列非可视化对话场景在生活中屡见不鲜,比如智能机器人的语音交互、各类客服通过语音对话了解客户需求等.音频中往往蕴含情感信息,而文本中则包含丰富的语义层面的信息,因此基于语音文本多模态特征更能充分挖掘语义及情感信息,生成信息更加丰富的对话响应.当前基于文本和音频的对话生成技术主要基于较传统的Seq2Seq模型实现,生成的响应存在多样性较低、上下文不够连贯等问题.为此,本文提出ATTransformer模型实现文本、音频多模态场景下的对话生成任务.首先使用WordEmbedding对上下文和回复进行词嵌入矩阵的构建,然后使用VGGish对对话音频进行特征提取,接着分别将其输入AT-Transformer模型中,并在多模态注意力机制中实现两种模态特征的融合,最后设计目标函数旨在提高生成语句的多样性.实验分别对情感丰富度、上下文语义相关性和句子连贯性进行评估,相较最优基准模型,情感匹配度提升2%,语义相关性提升0.5%.

主 题 词:多模态 对话生成 Transformer模型 文本生成 

学科分类:08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.13364/j.issn.1672-6510.20220189

馆 藏 号:203122378...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分