看过本文的还看了

相关文献

该作者的其他文献

文献详情 >科研实体名称规范的研究与实践 收藏
科研实体名称规范的研究与实践

科研实体名称规范的研究与实践

作     者:张建勇 钱力 于倩倩 董智鹏 黄永文 刘建华 郭舒 王峰 Zhang Jianyong;Qian Li;Yu Qianqian;Dong Zhipeng;Huang Yongwen;Liu Jianhua;Guo Shu;Wang Feng

作者机构:中国科学院文献情报中心北京100190 中国科学院大学图书情报与档案管理系北京100190 中国农业科学院农业信息研究所北京100081 上海科技大学图书馆上海201210 国家互联网应急中心北京100029 中国科学院自动化研究所北京100190 

基  金:国家科技图书文献中心(NSTL)资助项目"名称规范数据库建设"(项目编号:科1817) 中国科学院文献情报中心青年人才领域前沿项目"基于深度学习的名称规范方法研究"(项目编号:G180171001) 中国科学院文献情报中心重点任务专项"科研人员研究方向和研究重点分析"(项目编号:院1643)的研究成果之一 

出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)

年 卷 期:2019年第3卷第1期

页      码:27-37页

摘      要:【目的】建立机构规范、作者规范、期刊规范、基金规范,为发现系统、科研实体分析评价等建立数据基础。【方法】以多源异构数据为基础,对数据进行汇聚和融合,形成具有唯一标识符的统一的结构化数据。依据名称规范元数据模型,对科研实体及实体间的关系进行抽取。针对不同的科研实体可获取的文献特征,制定不同的消歧规则集合,结合传统字符串匹配方法和深度学习方法进行文本相似度计算。【结果】形成包含260多万条数据的机构规范库、2 300多万条数据的作者规范库、3万多条数据的期刊规范库和200多万条数据的基金规范库。以NSTL机构规范为例,与InCites机构规范进行对比,结果显示所遴选的美、英、中3个国家的6所高校,对标吻合度平均值达到86.8%。【局限】所提出的消歧规则和算法在处理文献特征表达形式多样性方面有待进一步细化和提升;需对具体数据源数据情况进行分析,以选择合适的算法模型。【结论】本研究提出了多源异构数据汇聚融合方法,设计了科研实体消歧规则和算法,能够有效实现名称规范数据库建设的规范性和全面性。

主 题 词:名称规范 期刊规范 机构规范 基金规范 作者规范 

学科分类:1205[管理学-图书情报与档案管理类] 12[管理学] 120501[120501] 120502[120502] 

核心收录:

D O I:10.11925/infotech.2096-3467.2018.1363

馆 藏 号:203572761...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分