看过本文的还看了

相关文献

该作者的其他文献

文献详情 >人文社科领域中文通用大模型性能评测 收藏
人文社科领域中文通用大模型性能评测

人文社科领域中文通用大模型性能评测

作     者:赵志枭 胡蝶 刘畅 沈思 王东波 Zhao Zhixiao;Hu Die;Liu Chang;Shen Si;Wang Dongbo

作者机构:南京农业大学信息管理学院南京210095 南京农业大学人文与社会计算研究中心南京210095 南京理工大学经济管理学院南京210094 

基  金:江苏省社科基金后期资助项目“人文社会科学大语言模型构建及应用研究”(项目编号:23HQBO63)研究成果之一 

出 版 物:《图书情报工作》 (Library and Information Service)

年 卷 期:2024年第68卷第13期

页      码:132-143页

摘      要:[目的/意义]以人文社科领域为出发点,从人文社科领域基础知识与人文社科学术文本两个方面入手进行人文社科领域模型性能比对。旨在为人文社科领域提供一份体系化的大模型评测基准,供人文社科相关领域研究人员参考。[方法/过程]设计7个人文社科领域相关的评测任务并选取对应指标,在此基础上,选取当前开源且性能较优的通用领域中文大模型,通过调用本地模型以问答形式完成领域化任务,并选取相关指标对其在人文社科领域的性能进行量化评测。[结果/结论]评测结果表明,在选取的开源模型中,无论是基座模型还是对话模型,Qwen性能最优、Baichuan2紧随其后、InternLM次之、Atom表现最差,此外,大多数情况下,相较于基座模型,对话模型表现出更加优越的性能。

主 题 词:人文社科 大模型评测 领域知识 学术文本 

学科分类:0303[法学-社会学类] 12[管理学] 03[法学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 081203[081203] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.13266/j.issn.0252-3116.2024.13.012

馆 藏 号:203133798...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分