看过本文的还看了

相关文献

该作者的其他文献

文献详情 >新闻信息检索系统设计 收藏
新闻信息检索系统设计

新闻信息检索系统设计

作     者:赵美勇 杨永琪 宋思睿 

作者机构:山东科技大学山东济南250000 

出 版 物:《科技资讯》 (Science & Technology Information)

年 卷 期:2019年第17卷第9期

页      码:6-7页

摘      要:模拟百度、谷歌等搜索工具,利用爬虫和大数据来实现一个简单的新闻信息检索系统。此系统大致分为5个模块:先是利用爬虫来爬取网页的信息;利用2-gram分词来将获取到的网页建立索引;将索引排序;利用hadoop分布式存取索引;最后搭建前后端实现界面交互。五个环节关系紧密,核心环节就是索引的建立,利用2-gram分词提取关键字,再利用TF-IDF矩阵对关键字打分,得到矩阵之后,就可以利用K-means来讲关键字分类了。然后再按照评分将索引排序就可以得到用户所需要的信息。

主 题 词:爬虫 Hadoop 2-gram 分词 K-means 

学科分类:040106[040106] 0401[教育学-教育学类] 04[教育学] 

D O I:10.16661/j.cnki.1672-3791.2019.09.006

馆 藏 号:203673342...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分