文献详情 >基于特征对齐融合的双波段图像描述生成方法收藏

基于特征对齐融合的双波段图像描述生成方法

作者：顾梦瑶蔺素珍晋赞霞李烽源 GU Mengyao;LIN Suzhen;JIN Zanxia;LI Fengyuan

基　　金：山西省自然科学基金项目(202303021211147) 山西省知识产权局专利转化专项计划(202302001) 国家自然科学基金项目(62406296) 山西省留学回国人员科技活动择优资助项目(20230017)

出版物：《现代电子技术》 (Modern Electronics Technique)

年卷期：2025年第48卷第7期

页码：65-71页

摘要：为了获得更准确、全面的现场信息,采用红外和可见光同步成像探测复杂场景已成为常态,但现有图像描述研究仍集中于可见光图像,无法全面而准确地描述已探测到的场景信息。为此,文中提出一种基于特征对齐融合的可见光⁃红外双波段图像描述生成方法。首先,利用Faster⁃RCNN分别提取可见光图像的区域特征和红外图像的网格特征;其次,以Transformer为基本架构,在可见光⁃红外图像对齐融合(VIIAF)编码器中引入位置信息做桥接,进行可见光⁃红外图像特征的对齐与融合;接着,将融合得到的视觉信息输入Transformer解码器中得到粗粒度文本的隐藏状态;最后将编码器输出的视觉信息、解码器得到的隐藏状态与经训练的Bert输出的语言信息输入所设计的自适应模块,使视觉信息和语言信息参与文本预测,实现文本由粗到细的图像描述。在可见光图像⁃红外图像描述数据集上进行的多组实验表明:所提方法不仅能够精确捕捉到可见光和红外图像间的互补信息,而且与使用Transformer的最优模型相比,其性能在BLEU⁃1、BLEU⁃2、BLEU⁃3、BLEU⁃4、METROR、ROUGE以及CIDEr指标上分别提高1.9%、2.1%、2.0%、1.8%、1.3%、1.4%、4.4%。

主题词：图像描述双波段特征对齐融合注意力机制 Transformer 语言模型 Bert 自适应

学科分类：0711[理学-心理学类] 07[理学] 081203[081203] 08[工学] 080401[080401] 0804[工学-材料学] 080402[080402] 0835[0835] 0812[工学-测绘类]

D　O　I：10.16652/j.issn.1004-373x.2025.07.010

馆藏号：203158097...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于特征对齐融合的双波段图像描述生成方法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于特征对齐融合的双波段图像描述生成方法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：