看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于全局与序列混合变分Transformer的多样化图像描述生成方法 收藏
基于全局与序列混合变分Transformer的多样化图像描述生成方法

基于全局与序列混合变分Transformer的多样化图像描述生成方法

作     者:刘兵 李穗 刘明明 刘浩 LIU Bing;LI Sui;LIU Ming-ming;LIU Hao

作者机构:中国矿业大学计算机科学与技术学院江苏徐州221116 矿山数字化教育部工程研究中心江苏徐州221116 

基  金:国家自然科学基金(No.62276266 No.61801198) 

出 版 物:《电子学报》 (Acta Electronica Sinica)

年 卷 期:2024年第52卷第4期

页      码:1305-1314页

摘      要:多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首先构建全局与序列混合条件变分自编码模型,解决全局与序列隐向量之间依赖关系表示的问题.其次,通过最大化条件似然推导混合模型的变分证据下界,解决多样化图像描述目标函数设计问题.最后,无缝融合Transformer和混合变分自编码模型,通过联合优化提升多样化图像描述的泛化性能.在MSCOCO数据集上实验结果表明,与当前最优基准方法相比,在随机生成20和100个描述语句时,多样性指标m-BLEU(mutual overlap-BiLingual Evaluation Understudy)分别提升了4.2%和4.7%,同时准确性指标CIDEr(Consensus-based Image Description Evaluation)分别提升了4.4%和15.2%.

主 题 词:图像理解 图像描述 变分自编码 隐嵌入 多模态学习 生成模型 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.12263/DZXB.20231155

馆 藏 号:203128236...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分