看过本文的还看了

相关文献

该作者的其他文献

文献详情 >结合多层级解码器和动态融合机制的图像描述 收藏
结合多层级解码器和动态融合机制的图像描述

结合多层级解码器和动态融合机制的图像描述

作     者:姜文晖 占锟 程一波 夏雪 方玉明 Jiang Wenhui;Zhan Kun;Cheng Yibo;Xia Xue;Fang Yuming

作者机构:江西财经大学信息管理学院南昌330032 

基  金:科技创新2030-“新一代人工智能”重大项目(2020AAA0109301) 国家自然科学基金项目(62161013,62162029) 江西省重点研发计划项目(20203BBE53033) 

出 版 物:《中国图象图形学报》 (Journal of Image and Graphics)

年 卷 期:2022年第27卷第9期

页      码:2775-2787页

摘      要:目的注意力机制是图像描述模型的常用方法,特点是自动关注图像的不同区域以动态生成描述图像的文本序列,但普遍存在不聚焦问题,即生成描述单词时,有时关注物体不重要区域,有时关注物体上下文,有时忽略图像重要目标,导致描述文本不够准确。针对上述问题,提出一种结合多层级解码器和动态融合机制的图像描述模型,以提高图像描述的准确性。方法对Transformer的结构进行扩展,整体模型由图像特征编码、多层级文本解码和自适应融合等3个模块构成。通过设计多层级文本解码结构,不断精化预测的文本信息,为注意力机制的聚焦提供可靠反馈,从而不断修正注意力机制以生成更加准确的图像描述。同时,设计文本融合模块,自适应地融合由粗到精的图像描述,使低层级解码器的输出直接参与文本预测,不仅可以缓解训练过程产生的梯度消失现象,同时保证输出的文本描述细节信息丰富且语法多样。结果在MS COCO(Microsoft common objects in context)和Flickr30K两个数据集上使用不同评估方法对模型进行验证,并与具有代表性的12种方法进行对比实验。结果表明,本文模型性能优于其他对比方法。其中,在MS COCO数据集中,相比于对比方法中性能最好的模型,BLEU-1(bilingual evaluation understudy)值提高了0.5,CIDEr(consensus-based image description evaluation)指标提高了1.0;在Flickr30K数据集中,相比于对比方法中性能最好的模型,BLEU-1值提高了0.1,CIDEr指标提高了0.6;同时,消融实验分别验证了级联结构和自适应模型的有效性。定性分析也表明本文方法能够生成更加准确的图像描述。结论本文方法在多种数据集的多项评价指标上取得最优性能,能够有效提高文本序列生成的准确性,最终形成对图像内容的准确描述。

主 题 词:图像描述 注意力机制 Transformer 多层级解码 动态融合 门机制 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.11834/jig.211252

馆 藏 号:203114448...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分