看过本文的还看了

相关文献

该作者的其他文献

文献详情 >中文文本高频差错类型解析及自动纠错研究 收藏
中文文本高频差错类型解析及自动纠错研究

中文文本高频差错类型解析及自动纠错研究

作     者:张芙蓉 ZHANG Furong

作者机构:长沙航空职业技术学院湖南长沙410124 

基  金:湖南省自然科学基金资助项目“基于深度学习的语义级中文自动校对方法”(编号:2020JJ7085)阶段性研究成果 

出 版 物:《信息技术与信息化》 (Information Technology and Informatization)

年 卷 期:2022年第10期

页      码:184-188页

摘      要:通过对出版产品编校质量检查中出现的中文文本差错进行类型解析,发现字词差错为最高频次出现的错误类型。对于字词差错的校对,反思编辑人员进行编辑加工及校对的实际工作流程,其自动纠错过程最终都归结为对字词的修改。为实现中文文本字词自动纠错,须构建知识库,以替代编辑人员的知识结构。为实现对高频出现的字词差错进行自动纠错,基于BERT方法建立语言模型,构建集成了易混淆汉字集、易混淆词语库、固定搭配知识库、术语库,工具性词库文库的大规模知识库,其中工具性词库文库包括《成语词典》《唐诗三百首》《宋词三百首》《毛泽东诗词》“敏感词库”等。为提高词语纠错的准确率,须采用内部特征和外部特征相结合的方法,将携带上下文信息的词向量与词语内部构词知识相结合,解决未登录词识别及词义预测问题。结合待测词语的统计特性,根据分词后所得词语的长度,访问相应的知识库,经查询,并设计相应的纠错系统,返回纠错建议。

主 题 词:中文文本 差错 自动校对 自动纠错 

学科分类:050302[050302] 05[文学] 081203[081203] 08[工学] 0835[0835] 0503[文学-新闻传播学类] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1672-9528.2022.10.044

馆 藏 号:203115517...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分