看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多种分词情况的中文命名实体识别 收藏
基于多种分词情况的中文命名实体识别

基于多种分词情况的中文命名实体识别

作     者:田地 邵玉斌 杜庆治 龙华 马迪南 TIAN Di;SHAO Yu-bin;DU Qing-zhi;LONG Hua;MA Di-nan

作者机构:昆明理工大学信息工程与自动化学院昆明650500 云南省媒体融合重点实验室昆明650032 

基  金:云南省媒体融合重点实验室项目(320225403) 

出 版 物:《兰州大学学报(自然科学版)》 (Journal of Lanzhou University(Natural Sciences))

年 卷 期:2024年第60卷第3期

页      码:350-356页

摘      要:针对中文词语边界不明确,词语和句子上下文关系被忽略的问题,设计一种基于多种分词情况的歧义分词信息抑制算法.在预处理中根据预训练的词汇频率表计算语句中不同分词的权重,将最有可能的分词情况与其他分词情况进行区分,合并至语句中,在自注意力机制提取语句上下文信息时加入分词权重信息,添加正确分词有效的边界信息,抑制歧义分词错误的前后文关系.对比MarkBert与W2NER算法,在公开数据集Resume、 MSRA、 Weibo、 OntoNotes中的试验结果表明,歧义分词信息抑制算法的预测准确率、句子长度增加时的鲁棒性、数据集增大时的预测准确率均有更好的表现.

主 题 词:命名实体识别 预训练模型 自注意力 词边界信息 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.13885/j.issn.0455-2059.2024.03.008

馆 藏 号:203128379...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分