看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于词聚类特征的统计中文组块分析模型 收藏
基于词聚类特征的统计中文组块分析模型

基于词聚类特征的统计中文组块分析模型

作     者:孙广路 王晓龙 刘秉权 关毅 SUN Guang-lu;WANG Xiao-long;LIU Bing-quan;GUAN Yi

作者机构:哈尔滨工业大学计算机科学与技术学院黑龙江哈尔滨150001 哈尔滨理工大学计算机科学与技术学院黑龙江哈尔滨150080 

基  金:国家自然科学基金(No.60435020No.60673037) 国家863项目(No.2006AA01Z197No.2007AA01Z172) 

出 版 物:《电子学报》 (Acta Electronica Sinica)

年 卷 期:2008年第36卷第12期

页      码:2450-2453,2399页

摘      要:提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能.

主 题 词:词聚类 信息熵 中文组块分析 句法功能 

学科分类:0808[工学-自动化类] 0809[工学-计算机类] 081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3321/j.issn:0372-2112.2008.12.033

馆 藏 号:203732936...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分