看过本文的还看了

相关文献

该作者的其他文献

文献详情 >中医古文相似度计算研究:一种以生成式AI融合领域知识的SimCSE方法 收藏
中医古文相似度计算研究:一种以生成式AI融合领域知识的SimCSE方法

中医古文相似度计算研究:一种以生成式AI融合领域知识的SimCSE方法

作     者:张君冬 刘江峰 邓景鹏 刘艳华 黄奇 Zhang Jundong;Liu Jiangfeng;Deng Jingpeng;Liu Yanhua;Huang Qi

作者机构:南京大学信息管理学院江苏南京210023 南京大学数据智能与交叉创新实验室江苏南京210023 武汉大学信息管理学院湖北武汉430064 南京中医药大学卫生经济管理学院江苏南京210023 

基  金:江苏省研究生科研与实践创新计划项目“图模驱动的在线医疗健康智慧问答服务研究”(项目编号:KYCX24_0107) 江苏高校哲学社会科学研究重大项目“中医古籍文献预训练模型构建及其应用研究”(项目编号:2023SJZD084) 

出 版 物:《现代情报》 (Journal of Modern Information)

年 卷 期:2025年第45卷第4期

页      码:49-59页

摘      要:[目的/意义]为构建专门适用于中医古籍文本的相似度计算模型,解决BERT在中医古籍文本上语义表征困难和数据标注成本高昂的问题。[方法/过程]本文在多个模型增量预训练的基础上,利用生成式AI生成全部任务数据,结合SimCSE方法,对比不同训练方式、预训练模型、正负样本构造方法、正样本混合策略的作用。[结果/结论]研究结果显示,无监督学习模型性能普遍偏低,引入AI生成的正负样本对后性能明显提升。其中,使用AI构建的语义不同的、相似性较低的负样本,并与采用AI辅助的同义词替换方法构建的正样本混合而成的训练集上,TCM-Gujiroberta模型性能最佳,达到90.9%;此外,选择相似性较低的负样本并随机混合不同类型正样本的数据集可进一步提升模型性能。本研究在零样本情境下,设计出一种融合中医古籍知识的SimCSE相似度计算模型,可为古籍研究和应用提供支持,未来考虑在数据集构建策略方面进一步优化。

主 题 词:中医古籍 相似度计算 预训练语言模型 SimCSE AIGC 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 081203[081203] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1008-0821.2025.04.005

馆 藏 号:203158158...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分