看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于相似度曲线的新闻网页分类模型研究 收藏
基于相似度曲线的新闻网页分类模型研究

基于相似度曲线的新闻网页分类模型研究

作     者:高加旺 孙名松 陈福 GAO Jia-wang;SUN Ming-song;CHEN Fu

作者机构:哈尔滨理工大学计算机科学技术学院哈尔滨150080 北京科技大学信息工程学院北京100080 

基  金:国家自然科学基金(60673160) 

出 版 物:《信息技术》 (Information Technology)

年 卷 期:2008年第32卷第2期

页      码:15-18页

摘      要:随着互联网的快速发展,网络日益成为人们查找有用数据的重要手段。由于WWW上的信息很多存储在HTML页面上,网页分类就显得十分必要。利用各种开源软件,详细设计并实现了一个中文网页分类模型,同时利用元搜索技术实现数据采集,有效地提高了采集的广度和深度。在进行中文分词时利用了专业词库,此方法提高了分词的准确率,在建立VSM时提出了一种基于相似度曲线的网页特征抽取方法,此方法能有效解决特征提取的高维问题,并对提高特征区分度,缩小运算量具有良好的效果。

主 题 词:相似度曲线 VSM模型 特征抽取 TF-IDF公式 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.13274/j.cnki.hdzj.2008.02.022

馆 藏 号:203156018...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分