看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark的中文新词提取 收藏
基于Spark的中文新词提取

基于Spark的中文新词提取

作     者:丁祥武 张东辉 DING Xiang-wu ZHANG Dong - hui

作者机构:东华大学计算机科学与技术学院上海201620 

基  金:上海市科技行动计划基金项目(15511106900) 上海市智慧城市建设基金项目(2015年1月至2016年12月) 上海市信息化发展资金基金项目(XX-XXFZ-05-16-0139) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2017年第38卷第11期

页      码:3185-3191页

摘      要:为提高新词提取的准确率,根据新词在时间上的性质引入时间频率函数值特征,提出自动阈值获取算法。针对高处理效率特性,基于Spark平台对海量语料库中新词提取方案进行研究,提出一种分布式新词提取方案。对文本预处理,统计文本中字串的特征值如互信息、上下文信息熵、时间频率函数值等,建立巨大的领域及时间相关的结构化数据库,通过阈值及背景词库的过滤实现新词提取,将提取的新词添加到背景词中。实验结果表明,该算法具有较高的准确率,在大规模语料库处理效率上相比传统方法有了大幅提升。

主 题 词:新词识别 互信息 上下文熵 时间频率函数 阈值 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2017.11.052

馆 藏 号:203278534...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分