看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法 收藏
基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法

基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法

作     者:刘景发 李帆 蒋盛益 LIU Jing-fa;LI Fan;JIANG Sheng-yi

作者机构:南京信息工程大学计算机与软件学院南京210044 广东外语外贸大学信息科学与技术学院广州510006 

基  金:国家社会科学基金重大招标项目(16ZDA047) 国家自然科学基金项目(61373016) 江苏省自然科学基金项目(BK20181409 BK20171458)资助 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2019年第46卷第2期

页      码:215-222页

摘      要:如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。

主 题 词:暴雨灾害 网络主题爬虫 综合优先度 主机信息 模拟退火算法 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.11896/j.issn.1002-137X.2019.02.033

馆 藏 号:203459321...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分