看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Nave Bayes分类器制导的专业网页爬取算法 收藏
Nave Bayes分类器制导的专业网页爬取算法

Nave Bayes分类器制导的专业网页爬取算法

作     者:韩国辉 陈黎 梁时木 唐小棚 王亚强 于中华 HAN Guohui;CHEN Li;LIANG Shimu;TANG Xiaopeng;WANG Yaqiang;YU Zhonghua

作者机构:四川大学计算机学院四川成都610065 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2010年第24卷第4期

页      码:32-38,62页

摘      要:从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。

主 题 词:计算机应用 中文信息处理 搜索引擎 专业爬虫 Nave Bayesian Classifier 链接前后文 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1003-0077.2010.04.005

馆 藏 号:203142530...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分