看过本文的还看了

相关文献

该作者的其他文献

文献详情 >结合图像-文本提示与跨模态适配器的零样本多标签图像分类 收藏
结合图像-文本提示与跨模态适配器的零样本多标签图像分类

结合图像-文本提示与跨模态适配器的零样本多标签图像分类

作     者:宋铁成 黄宇 SONG Tiecheng;HUANG Yu

作者机构:重庆邮电大学通信与信息工程学院重庆400065 

基  金:国家自然科学基金面上项目(62371084) 

出 版 物:《重庆理工大学学报(自然科学)》 (Journal of Chongqing University of Technology:Natural Science)

年 卷 期:2024年第38卷第12期

页      码:182-188页

摘      要:最近的零样本多标签图像分类方法主要基于视觉语言预训练模型CLIP(contrastive language-image pre-training)。然而,这些工作仅仅在文本提示上进行改进,忽略了图像和文本2种模态之间的交互。针对以上问题,提出一种结合图像-文本提示和跨模态适配器(image-text prompts and cross-modal adapter,ITPCA)的零样本多标签图像分类方法,充分挖掘视觉语言预训练模型的图文匹配能力。通过结合提示学习为图像和文本分支设计提示,提高了模型对不同标签的泛化能力。此外,设计了一个跨模态适配器建立图像和文本2种模态之间的联系。实验结果表明,在NUS-WIDE、MS-COCO多标签数据集上,所提方法优于其他零样本多标签图像分类方法。

主 题 词:视觉语言预训练模型 提示学习 零样本学习 多标签图像分类 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.3969/j.issn.1674-8425(z).2024.12.022

馆 藏 号:203156583...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分