看过本文的还看了

相关文献

该作者的其他文献

文献详情 >短文本信息流的无监督会话抽取技术 收藏
短文本信息流的无监督会话抽取技术

短文本信息流的无监督会话抽取技术

作     者:黄九鸣 吴泉源 刘春阳 张旭 贾焰 周斌 HUANG Jiu-Ming;WU Quan-Yuan;LIU Chun-Yang;ZHANG Xu;JIA Yan;ZHOU Bin

作者机构:国防科学技术大学计算机学院湖南长沙410073 国家计算机网络应急技术处理协调中心北京100029 

基  金:国家自然科学基金(60933005 60873204) 国家高技术研究发展计划(863)(2001AA012505) 国家242信息安全计划课题(2009A90) 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2012年第23卷第4期

页      码:735-747页

摘      要:文本会话抽取将网络聊天记录等短文本信息流中的信息根据其所属的会话分检到多个会话队列,有利于短文本信息的管理及进一步的挖掘.现有的会话抽取技术主要对基于文本相似度的聚类方法进行改进,面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战.针对这些挑战,研究无监督的会话抽取技术,提出了一种基于信息流时序特征和上下文相关度的抽取方法.首先研究了信息流的会话生命周期规律,提出基于信息产生频率的会话边界检测方法;其次提出信息间的上下文相关度概念,采用基于实例的机器学习方法计算该相关度;最后综合信息产生频率和上下文相关度,设计了基于Single-Pass聚类模型的会话在线抽取算法SPFC(single-pass based on frequency and correlation).真实数据集上的实验结果表明,SPFC算法与已有的基于文本相似度的会话抽取算法相比,F1评测指标提高了30%.

主 题 词:会话抽取 短文本 短文本信息流 无监督 时序特征 上下文相关度 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3724/SP.J.1001.2012.04031

馆 藏 号:203749863...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分