文献详情 >NKCorpus:利用海量网络数据构建大型高质量中文数据集收藏

NKCorpus:利用海量网络数据构建大型高质量中文数据集

作者：李东闻钟震宇申峻宇王昊天孙羽菲张玉志 LI Dongwen;ZHONG Zhenyu;SHEN Junyu;WANG Haotian;SUN Yufei;ZHANG Yuzhi

作者机构：南开大学软件学院天津300350

基　　金：国家重点研发计划(2021YFB0300104)

出版物：《数据与计算发展前沿》 (Frontiers of Data & Computing)

年卷期：2022年第4卷第3期

页码：30-45页

摘要：【目的】大规模、高质量的中文数据集对于大型中文预训练语言模型及其他自然语言处理模型的训练至关重要,因此需要设计并完善一种可以构建大规模中文数据集的框架。【方法】利用语言提取、文本清洗、数据去重等多种方法对原始数据进行处理获取数据集,并利用并行技术对数据处理框架的效率进行优化。【结果】提出了一个流程完善且高效的可以利用海量网络数据构建大型高质量中文数据集的框架NKCorpus,并且利用NKCorpus构建了约700GB的可直接用于中文预训练语言模型的训练工作的高质量中文数据集。【结论】NKCorpus已能够基本满足当前对于大规模、高质量中文数据集的高效构建需求。

主题词：自然语言处理中文数据集数据集构建

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

D　O　I：10.11871/jfdc.issn.2096-742X.2022.03.003

馆藏号：203112235...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

NKCorpus:利用海量网络数据构建大型高质量中文数据集

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

NKCorpus:利用海量网络数据构建大型高质量中文数据集

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：