看过本文的还看了

相关文献

该作者的其他文献

文献详情 >汉字种子混淆集的构建方法研究 收藏
汉字种子混淆集的构建方法研究

汉字种子混淆集的构建方法研究

作     者:施恒利 刘亮亮 王石 符建辉 张再跃 曹存根 SHI Heng-li;LIU Liang-liang;WANG Shi;FU Jian-hui;ZHANG Zai-yue;CAO Cun-gen

作者机构:江苏科技大学计算机科学与工程学院镇江212003 中国科学院大学研究生院北京100049 中国科学院计算技术研究所北京100190 

基  金:国家自然科学基金重点项目(91224006 61173063 61035004) 国家自然科学基金面上项目(61203284)资助 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2014年第41卷第8期

页      码:229-232,253页

摘      要:汉字混淆集是错别字识别中的重要资源之一。在本项研究中,首先手工整理了11935个汉字的可能的错别字,然后以这些汉字为节点、"可错成"关系为边,将混淆集构造成一个错别字混淆集图。由于人工总结错别字具有很大的局限性,因此在种子错别字混淆集图的基础上,设计了自扩展算法和开源外部补充算法来对错别字混淆集图进行扩展,以发现新的错别字对。根据实验,新发现了15133组错别字对。经过随机抽样校对,准确率达到87.35%。

主 题 词:错别字混淆集 自扩展 开源数据 基于规则和统计 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

核心收录:

D O I:10.11896/j.issn.1002-137X.2014.08.049

馆 藏 号:203150876...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分