看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于选择状态空间的三模态适配器 收藏
基于选择状态空间的三模态适配器

基于选择状态空间的三模态适配器

作     者:刘弘业 陈锡爱 曾涛 LIU Hongye;CHEN Xiai;ZENG Tao

作者机构:中国计量大学机电工程学院杭州310018 

基  金:国家自然科学基金资助项目(52005472) 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2025年第45卷第2期

页      码:411-420页

摘      要:预训练再微调范式广泛应用于各种单模态和多模态的任务中。然而,随着模型规模的指数级别增长,微调预训练模型的所有参数变得非常困难。为了解决这个问题,设计一种基于选择状态空间的三模态适配器,它可以冻结预训练模型,只针对少量额外的参数微调,并完成三模态间的密集交互。具体地,提出一个基于选择状态空间的长期语义选择模块和一个基于视觉或音频中心的短期语义交互模块,这两个模块被按顺序插入各顺序编码器之间,以完成三模态信息的密集交互。长期语义选择模块旨在抑制三模态中的冗余信息,短期语义交互模块则对短时间内的局部模态特征进行交互建模。与之前需要在大规模三模态数据集上进行预训练的方法相比,所提方法更灵活,它可以继承任意强大的单模态或双模态模型。在Music-AVQA三模态评测数据集上,所提方法取得了80.19%的平均准确率,较LAVISH提升了4.09个百分点。

主 题 词:预训练再微调 选择状态空间 三模态 长期语义 短期语义 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.11772/j.issn.1001-9081.2024010130

馆 藏 号:203127523...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分