看过本文的还看了

相关文献

该作者的其他文献

文献详情 >用户定制主题聚焦爬虫的设计与实现 收藏
用户定制主题聚焦爬虫的设计与实现

用户定制主题聚焦爬虫的设计与实现

作     者:闵钰麟 黄永峰 MIN Yu-lin;HUANG Yong-feng

作者机构:清华大学电子工程系信息认知与智能系统研究所北京100084 清华大学信息科学与技术国家实验室北京100084 

基  金:国家863高技术研究发展计划基金项目(2012AA011004) 清华大学自主科研基金项目(20111081023) 国家基金委前瞻计划基金项目(61161140454) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2015年第36卷第1期

页      码:17-21页

摘      要:传统的聚焦爬虫在主题未知或者缺少相应训练集的情况下无法完成主题爬行。为让聚焦爬虫具有更好的主题适应性,提出基于聚类算法的自适应主题模型,指导聚焦爬虫在只有少量相同主题(主题未知)初始url的情况下完成主题爬行。通过对初始页面聚类得到主题中心向量,寻找相关网页更新主题中心位置;基于best-first策略实现url排序;基于该模型实现用户定制主题聚焦爬虫。通过对比实验验证了使用该模型的爬虫具有较高的收获比(havest rate)。

主 题 词:聚焦爬虫 k-means best-first策略 自适应主题模型 用户定制主题爬虫 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2015.01.004

馆 藏 号:203926504...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分