文献详情 >基于Bert词向量与有序记忆网络的图像描述收藏

基于Bert词向量与有序记忆网络的图像描述

作者：俞艺文施水才王洪俊 YU Yi-wen;SHI Shui-cai;WANG Hong-jun

作者机构：北京信息科技大学计算机学院北京100192 拓尔思信息技术股份有限公司北京100101

出版物：《软件导刊》 (Software Guide)

年卷期：2023年第22卷第3期

页码：125-133页

摘要：目前,基于编码器—解码器框架图像描述模型在编码阶段未考虑同一个单词在不同语句中的差异,在解码阶段未考虑语言序列的层级结构。为解决该问题,基于深度学习对图像描述进行研究,充分利用图像的视觉特征与参考语句的文本信息,设计了基于Bert词向量和有序记忆网络的图像描述模型。该模型采用编码器—解码器框架,编码器负责获取图像和参考文本的信息,解码器负责输出预测的文本。编码器利用Inception-v4网络与通道注意力和空间注意力机制(CBAM)相结合的方式获取图像特征,利用Bert模型对参考文本进行向量化获取参考文本的信息。将获取到的视觉特征和文本信息输入到解码器中,使用具有良好决策能力的策略网络与价值网络为解码器提供指导,通过与自适应注意力相结合的有序记忆网络(ON-LSTM)生成最终的图像描述语句。该模型在MS COCO Caption2014数据集中相对于基础模型在BLEU-1、BLEU-4、CIDEr和Meteor上分别提高了0.7%、1.1%、0.6%和0.7%,是一种有效的图像描述模型。

主题词：Bert 有序记忆网络图像描述深度学习

学科分类：08[工学] 080203[080203] 0802[工学-机械学]

D　O　I：10.11907/rjdk.221353

馆藏号：203121172...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于Bert词向量与有序记忆网络的图像描述

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于Bert词向量与有序记忆网络的图像描述

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：