看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Bert词向量与有序记忆网络的图像描述 收藏
基于Bert词向量与有序记忆网络的图像描述

基于Bert词向量与有序记忆网络的图像描述

作     者:俞艺文 施水才 王洪俊 YU Yi-wen;SHI Shui-cai;WANG Hong-jun

作者机构:北京信息科技大学计算机学院北京100192 拓尔思信息技术股份有限公司北京100101 

出 版 物:《软件导刊》 (Software Guide)

年 卷 期:2023年第22卷第3期

页      码:125-133页

摘      要:目前,基于编码器—解码器框架图像描述模型在编码阶段未考虑同一个单词在不同语句中的差异,在解码阶段未考虑语言序列的层级结构。为解决该问题,基于深度学习对图像描述进行研究,充分利用图像的视觉特征与参考语句的文本信息,设计了基于Bert词向量和有序记忆网络的图像描述模型。该模型采用编码器—解码器框架,编码器负责获取图像和参考文本的信息,解码器负责输出预测的文本。编码器利用Inception-v4网络与通道注意力和空间注意力机制(CBAM)相结合的方式获取图像特征,利用Bert模型对参考文本进行向量化获取参考文本的信息。将获取到的视觉特征和文本信息输入到解码器中,使用具有良好决策能力的策略网络与价值网络为解码器提供指导,通过与自适应注意力相结合的有序记忆网络(ON-LSTM)生成最终的图像描述语句。该模型在MS COCO Caption2014数据集中相对于基础模型在BLEU-1、BLEU-4、CIDEr和Meteor上分别提高了0.7%、1.1%、0.6%和0.7%,是一种有效的图像描述模型。

主 题 词:Bert 有序记忆网络 图像描述 深度学习 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.11907/rjdk.221353

馆 藏 号:203121172...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分