看过本文的还看了

相关文献

该作者的其他文献

文献详情 >NKCorpus:利用海量网络数据构建大型高质量中文数据集 收藏
NKCorpus:利用海量网络数据构建大型高质量中文数据集

NKCorpus:利用海量网络数据构建大型高质量中文数据集

作     者:李东闻 钟震宇 申峻宇 王昊天 孙羽菲 张玉志 LI Dongwen;ZHONG Zhenyu;SHEN Junyu;WANG Haotian;SUN Yufei;ZHANG Yuzhi

作者机构:南开大学软件学院天津300350 

基  金:国家重点研发计划(2021YFB0300104) 

出 版 物:《数据与计算发展前沿》 (Frontiers of Data & Computing)

年 卷 期:2022年第4卷第3期

页      码:30-45页

摘      要:【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。

主 题 词:自然语言处理 中文数据集 数据集构建 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.11871/jfdc.issn.2096-742X.2022.03.003

馆 藏 号:203112235...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分