看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于特征对齐融合的双波段图像描述生成方法 收藏
基于特征对齐融合的双波段图像描述生成方法

基于特征对齐融合的双波段图像描述生成方法

作     者:顾梦瑶 蔺素珍 晋赞霞 李烽源 GU Mengyao;LIN Suzhen;JIN Zanxia;LI Fengyuan

作者机构:中北大学计算机科学与技术学院山西太原030051 

基  金:山西省自然科学基金项目(202303021211147) 山西省知识产权局专利转化专项计划(202302001) 国家自然科学基金项目(62406296) 山西省留学回国人员科技活动择优资助项目(20230017) 

出 版 物:《现代电子技术》 (Modern Electronics Technique)

年 卷 期:2025年第48卷第7期

页      码:65-71页

摘      要:为了获得更准确、全面的现场信息,采用红外和可见光同步成像探测复杂场景已成为常态,但现有图像描述研究仍集中于可见光图像,无法全面而准确地描述已探测到的场景信息。为此,文中提出一种基于特征对齐融合的可见光⁃红外双波段图像描述生成方法。首先,利用Faster⁃RCNN分别提取可见光图像的区域特征和红外图像的网格特征;其次,以Transformer为基本架构,在可见光⁃红外图像对齐融合(VIIAF)编码器中引入位置信息做桥接,进行可见光⁃红外图像特征的对齐与融合;接着,将融合得到的视觉信息输入Transformer解码器中得到粗粒度文本的隐藏状态;最后将编码器输出的视觉信息、解码器得到的隐藏状态与经训练的Bert输出的语言信息输入所设计的自适应模块,使视觉信息和语言信息参与文本预测,实现文本由粗到细的图像描述。在可见光图像⁃红外图像描述数据集上进行的多组实验表明:所提方法不仅能够精确捕捉到可见光和红外图像间的互补信息,而且与使用Transformer的最优模型相比,其性能在BLEU⁃1、BLEU⁃2、BLEU⁃3、BLEU⁃4、METROR、ROUGE以及CIDEr指标上分别提高1.9%、2.1%、2.0%、1.8%、1.3%、1.4%、4.4%。

主 题 词:图像描述 双波段 特征对齐融合 注意力机制 Transformer 语言模型 Bert 自适应 

学科分类:0711[理学-心理学类] 07[理学] 081203[081203] 08[工学] 080401[080401] 0804[工学-材料学] 080402[080402] 0835[0835] 0812[工学-测绘类] 

D O I:10.16652/j.issn.1004-373x.2025.07.010

馆 藏 号:203158097...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分