看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向汽车领域的软文识别研究 收藏
面向汽车领域的软文识别研究

面向汽车领域的软文识别研究

作     者:唐都钰 王大亮 赵凯 秦兵 刘挺 

作者机构:哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心黑龙江哈尔滨150001 NEC中国研究院北京100084 

基  金:国家自然科学基金面上项目(60975055) 国家自然科学基金重点项目(61133012) 

出 版 物:《山东大学学报(理学版)》 (Journal of Shandong University(Natural Science))

年 卷 期:2012年第47卷第3期

页      码:43-46,60页

摘      要:针对面向汽车领域的软文识别问题,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖识别4个子任务,并分别使用基于规则的方法和基于机器学习的方法对4类软文进行识别。基于规则的方法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,对于领域特征明显、具有数值化反馈信息和明确标注数据的领域,适合使用机器学习的方法进行软文识别。

主 题 词:软文识别 广告帖识别 规则 机器学习 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

馆 藏 号:203357138...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分