看过本文的还看了

相关文献

该作者的其他文献

文献详情 >自编码器预训练和多表征交互的段落重排序模型 收藏
自编码器预训练和多表征交互的段落重排序模型

自编码器预训练和多表征交互的段落重排序模型

作     者:张康 陈明 顾凡 Zhang Kang;Chen Ming;Gu Fan

作者机构:上海海洋大学信息学院上海201306 

基  金:上海市科技创新计划项目(20dz1203800) 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2023年第40卷第12期

页      码:3643-3650页

摘      要:在段落重排序任务中,最近研究人员提出了基于双编码器的后期交互架构以实现快速计算。由于这些模型在训练和推理中都使用预训练模型对查询和段落进行独立编码,其排序性能较大地依赖了预训练模型的编码质量。此外,一些多向量的后期交互方式采用字符向量之间的最大相似度之和来计算文本相似度,容易出现部分匹配的问题。针对以上不足,提出了替换段落预测(RPP)的预训练方法,它采用一种部分连接的自编码器架构,使用ELECTRA类似的替换词汇预测任务来让预训练模型建立给定查询和文档之间的语义关系,从而增强其表示能力。在交互方式改进上,设计了一种新的后期交互范式。使用不同注意力引导待排序段落文本表征,通过动态融合后使用点积与查询向量进行相似度计算,具有较低的复杂度和较细的粒度特征。在MS MACRO段落检索数据集上的重排序实验表明:在不同训练条件下,该模型比ColBERT和PreTTR在MRR@10指标上都要优秀;在使用知识蒸馏情况下,性能接近教师模型的水平,且排序时间在GPU和CPU大幅缩短。

主 题 词:自编码器 预训练 重排序 后期交互 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.19734/j.issn.1001-3695.2023.05.0165

馆 藏 号:203125178...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分