看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种中文分词的预处理技术 收藏
一种中文分词的预处理技术

一种中文分词的预处理技术

作     者:陈书雨 曹集翔 姚寒冰 Chen Shuyu;Cao Jixiang;Yao Hanbing

作者机构:伦敦大学学院多学科和跨文化研究中心英国伦敦W55RF 武汉理工大学计算机与人工智能学院 

基  金:武汉理工大学重庆研究院科技创新研发项目(YF2021-10) 

出 版 物:《计算机时代》 (Computer Era)

年 卷 期:2023年第5期

页      码:123-126页

摘      要:分析基于词表的最大匹配分词算法,针对其缺陷设计了一个附近字表,内容为高频字在词表中出现的左边首字和右边首字。设计的算法根据高频词的特点,将句子尽可能多的分成段,然后将段进行最大匹配。当发现句子中高频词时,只取句子中高频词的左边首字和右边首字在附近字表中查找;若未找到,则表示句子中此高频字单独成词,无需在词表中匹配,从而减少高频字单独成词时的匹配时间,进而减少整个分词过程的时间。通过实验证明此技术能提高中文分词的效率。

主 题 词:高频词 预处理 中文分词 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.16644/j.cnki.cn33-1094/tp.2023.05.027

馆 藏 号:203121315...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分