看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于体裁的中文网页分类的特征选取 收藏
基于体裁的中文网页分类的特征选取

基于体裁的中文网页分类的特征选取

作     者:黄臻臻 吴扬扬 HUANG Zhen-Zhen;WU Yang-yang

作者机构:华侨大学计算机科学系福建泉州362021 

基  金:福建省科技计划基金项目(20041014) 福建省自然科学基金项目(A0510020) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2007年第28卷第11期

页      码:2743-2745页

摘      要:探讨基于体裁的中文网页分类的特征项选取问题。词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式。此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征。实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善。

主 题 词:网页分类 体裁 特征选取 序列挖掘 模糊字符串模式 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-7024.2007.11.076

馆 藏 号:203547836...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分