看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于表示学习的中文分词算法探索 收藏
基于表示学习的中文分词算法探索

基于表示学习的中文分词算法探索

作     者:来斯惟 徐立恒 陈玉博 刘康 赵军 LAI Siwei;XU Liheng;CHEN Yubo;LIU Kang;ZHAO Jun

作者机构:中国科学院自动化研究所模式识别国家重点实验室北京100190 

基  金:国家自然科学基金资助项目(61070106,61272332,61202329) 国家高技术研究发展计划资助项目(863计划)(2012AA011102) 国家重点基础研究发展计划资助项目(973计划)(2012CB316300) 网络文化与数字传播北京市重点实验室开放课题资助项目(ICDD201201) 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2013年第27卷第5期

页      码:8-14页

摘      要:分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。

主 题 词:表示学习 中文分词 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1003-0077.2013.05.002

馆 藏 号:203719791...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分