文献详情 >基于Spark的中文新词提取收藏

基于Spark的中文新词提取

作者：丁祥武张东辉 DING Xiang-wu ZHANG Dong - hui

作者机构：东华大学计算机科学与技术学院上海201620

基　　金：上海市科技行动计划基金项目(15511106900) 上海市智慧城市建设基金项目(2015年1月至2016年12月) 上海市信息化发展资金基金项目(XX-XXFZ-05-16-0139)

出版物：《计算机工程与设计》 (Computer Engineering and Design)

年卷期：2017年第38卷第11期

页码：3185-3191页

摘要：为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特征值如互信息、上下文信息熵、时间频率函数值等,建立巨大的领域及时间相关的结构化数据库,通过阈值及背景词库的过滤实现新词提取,将提取的新词添加到背景词中。实验结果表明,该算法具有较高的准确率,在大规模语料库处理效率上相比传统方法有了大幅提升。

主题词：新词识别互信息上下文熵时间频率函数阈值

学科分类：08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类]

D　O　I：10.16208/j.issn1000-7024.2017.11.052

馆藏号：203278534...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于Spark的中文新词提取

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于Spark的中文新词提取

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：