看过本文的还看了

相关文献

该作者的其他文献

文献详情 >融合自适应常识门的图像描述生成模型 收藏
融合自适应常识门的图像描述生成模型

融合自适应常识门的图像描述生成模型

作     者:杨有 陈立志 方小龙 潘龙越 YANG You;CHEN Lizhi;FANG Xiaolong;PAN Longyue

作者机构:重庆国家应用数学中心重庆401331 重庆师范大学计算机与信息科学学院重庆401331 

基  金:重庆师范大学研究生科研创新项目(YKC20038) 重庆师范大学(人才引进/博士启动)基金资助项目(21XLB032) 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2022年第42卷第12期

页      码:3900-3905页

摘      要:针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题,提出了一种融合自适应常识门(ACG)的图像描述生成模型。首先,使用基于视觉常识区域的卷积神经网络(VC R-CNN)提取视觉常识特征,并将常识特征分层输入到Transformer编码器中;然后,在编码器的每一分层中设计了ACG,从而对视觉常识特征和编码特征进行自适应融合操作;最后,将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试,结果表明所提模型在评价指标BLEU‑4、CIDEr和SPICE上分别达到了39.2、129.6和22.7,相较于词性堆叠交叉注意网络(POS-SCAN)模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型,能够对图像内容进行准确的描述。

主 题 词:图像描述 自然语言处理 卷积神经网络 视觉常识 自适应常识门 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.11772/j.issn.1001-9081.2021101743

馆 藏 号:203115630...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分