看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Hadoop云平台下Nutch中文分词的研究与实现 收藏
Hadoop云平台下Nutch中文分词的研究与实现

Hadoop云平台下Nutch中文分词的研究与实现

作     者:朱潜 吴辰铌 朱志良 刘洪娟 ZHU Qian;WU Chen-ni;ZHU Zhi-liang;LIU Hong-juan

作者机构:东北大学软件学院沈阳110819 东北大学信息科学与工程学院沈阳110819 

基  金:辽宁省自然科学基金项目(201202076)资助 

出 版 物:《小型微型计算机系统》 (Journal of Chinese Computer Systems)

年 卷 期:2013年第34卷第12期

页      码:2772-2776页

摘      要:Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义.

主 题 词:Nutch Hadoop 中文分词 云计算 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1000-1220.2013.12.022

馆 藏 号:203465684...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分