文献详情 >基于全局与序列混合变分Transformer的多样化图像描述生成方法收藏

基于全局与序列混合变分Transformer的多样化图像描述生成方法

作者：刘兵李穗刘明明刘浩 LIU Bing;LI Sui;LIU Ming-ming;LIU Hao

作者机构：中国矿业大学计算机科学与技术学院江苏徐州221116 矿山数字化教育部工程研究中心江苏徐州221116

基　　金：国家自然科学基金(No.62276266 No.61801198)

出版物：《电子学报》 (Acta Electronica Sinica)

年卷期：2024年第52卷第4期

页码：1305-1314页

摘要：多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首先构建全局与序列混合条件变分自编码模型,解决全局与序列隐向量之间依赖关系表示的问题.其次,通过最大化条件似然推导混合模型的变分证据下界,解决多样化图像描述目标函数设计问题.最后,无缝融合Transformer和混合变分自编码模型,通过联合优化提升多样化图像描述的泛化性能.在MSCOCO数据集上实验结果表明,与当前最优基准方法相比,在随机生成20和100个描述语句时,多样性指标m-BLEU(mutual overlap-BiLingual Evaluation Understudy)分别提升了4.2%和4.7%,同时准确性指标CIDEr(Consensus-based Image Description Evaluation)分别提升了4.4%和15.2%.

主题词：图像理解图像描述变分自编码隐嵌入多模态学习生成模型

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

核心收录：

D　O　I：10.12263/DZXB.20231155

馆藏号：203128236...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于全局与序列混合变分Transformer的多样化图像描述生成方法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于全局与序列混合变分Transformer的多样化图像描述生成方法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：