看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于胶囊异构图注意力网络的中文表格型数据事实验证 收藏
基于胶囊异构图注意力网络的中文表格型数据事实验证

基于胶囊异构图注意力网络的中文表格型数据事实验证

作     者:杨鹏 查显宇 赵广振 林茜 YANG Peng;ZHA Xian-Yu;ZHAO Guang-Zhen;LIN Xi

作者机构:东南大学计算机科学与工程学院江苏南京211189 计算机网络和信息集成教育部重点实验室(东南大学)江苏南京211189 福州大学计算机与大数据学院福建福州350108 

基  金:国家自然科学基金(62272100) 中国工程院院地合作项目(JS2021ZT05) 中国工程院咨询项目(2023-XY-09) 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2024年第35卷第9期

页      码:4324-4345页

摘      要:事实验证旨在检查一个文本陈述是否被给定的证据所支持.由于表格结构上具有依赖性、内容上具有隐含性,以表格作为证据的事实验证任务仍面临很多挑战.现有工作或者利用逻辑表达式来解析基于表格证据的陈述,或者设计表格感知神经网络来编码陈述-表格对,以此实现基于表格的事实验证任务.但是,这些方法没有充分利用陈述背后隐含的表格信息,从而导致模型的推理性能下降,并且基于表格证据的中文陈述具有更加复杂的语法和语义,也给模型推理带来更大的困难.为此,提出基于胶囊异构图注意力网络(CapsHAN)的中文表格型数据事实验证方法,所提方法能充分理解陈述的结构和语义,进而挖掘和利用陈述所隐含的表格信息,有效提升基于表格的事实验证任务准确性.具体而言,首先通过对陈述进行依存句法分析和命名实体识别来构建异构图,接着对该图采用异构图注意力网络和胶囊图神经网络进行学习和理解,然后将得到的陈述文本表示与经过编码的表格文本表示进行拼接,最后完成结果的预测.更进一步,针对现有中文表格型事实验证数据集匮乏而难以支持基于表格的事实验证方法性能评价的难题,首先对主流TABFACT和INFOTABS表格事实验证英文数据集进行中文转化,并且专门针对中文表格型数据的特点构建了基于UCL国家标准的数据集UCLDS,该数据集将维基百科信息框作为人工注释的自然语言陈述的证据,并被标记为蕴含、反驳或中立3类.UCLDS在同时支持单表和多表推理方面比传统TABFACT和INFOTABS数据集更胜一筹.在上述3个中文基准数据集上的实验结果表明,所提模型的表现均优于基线模型,证明该模型在基于中文表格的事实验证任务上的优越性.

主 题 词:基于表格的事实验证 异构图注意力网络 胶囊图神经网络 依存句法分析 命名实体识别 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

D O I:10.13328/j.cnki.jos.006951

馆 藏 号:203138904...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分