看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于RoBERTa-ND的中文实词辨析 收藏
基于RoBERTa-ND的中文实词辨析

基于RoBERTa-ND的中文实词辨析

作     者:孙晨瑜 王振琦 张宝宇 张卫山 侯召祥 陈涛 SUN Chen-Yu;WANG Zhen-Qi;ZHANG Bao-Yu;ZHANG Wei-Shan;HOU Zhao-Xiang;CHEN Tao

作者机构:中国石油大学(华东)计算机科学与技术学院青岛266580 

基  金:国家自然科学基金(62072469) 中国科学院自动化研究所复杂系统管理与控制国家重点实验室2021年开放课题(20210114) 

出 版 物:《计算机系统应用》 (Computer Systems & Applications)

年 卷 期:2023年第32卷第5期

页      码:157-163页

摘      要:在机器阅读理解任务中,由于中文实词的组合性和隐喻性,且缺乏有关中文实词辨析的数据集,因此传统方法对中文实词的理解程度和辨析能力仍然有限.为此,构建了一个大规模(600k)的中文实词辨析数据集(Chinese notional word discrimination cloze data set,CND).在数据集中,一句话中的一个实词被替换成了空白占位符,需要从提供的两个候选实词中选择正确答案.设计了一个基线模型RoBERTa-ND(RoBERTa-based notional word discrimination model)来对候选词进行选择.模型首先利用预训练语言模型提取语境中的语义信息.其次,融合候选实词语义并通过分类任务计算候选词得分.最后,通过增强模型对位置及方向信息的感知,进一步加强了模型的中文实词的辨析能力.实验表明,该模型在CND上准确率达到90.21%,战胜了DUMA(87.59%),GNN-QA(84.23%)等主流的完形填空模型.该工作填补了中文隐喻语义理解研究的空白,可以在提高中文对话机器人认知能力等方向开发更多实用价值.数据集CND及RoBERTa-ND代码均已开源:https://***/2572926348/CND-Large-scale-Chinese-National-word-discrimination-dataset.

主 题 词:隐喻语义理解 中文实词辨析 机器阅读理解 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.15888/j.cnki.csa.009099

馆 藏 号:203121362...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分