看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Lucene的中文分词模块的设计和实现 收藏
基于Lucene的中文分词模块的设计和实现

基于Lucene的中文分词模块的设计和实现

作     者:罗宁 徐俊刚 郭洪韬 Luo Ning;Xu Jungang;Guo Hongtao

作者机构:中国科学院研究生院北京100049 首都信息发展股份有限公司北京100029 

出 版 物:《电子技术(上海)》 (Electronic Technology)

年 卷 期:2012年第39卷第9期

页      码:54-56页

摘      要:基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。

主 题 词:搜索引擎 中文分词 Lucene 哈希索引 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-0755.2012.09.018

馆 藏 号:203263358...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分