文献检索-宁波市创意产业特色资源库

面向文本摘要的反事实纠偏方法: 收藏
分享
引用; 《计算机学报》2023年第11期46卷 2400-2415页; 作者：陈璐张儒清郭嘉丰范意兴中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190 中国科学院大学北京100190; 文本摘要是自然语言处理领域中一项典型的文本到文本生成任务,旨在提取和概括一篇或多篇输入文档的关键信息,生成简洁、流畅又准确的摘要文本.自动文本摘要技术涉及自然语言理解和自然语言生成技术,并能应用于多种实际场景,包括文档索...; 文本摘要是自然语言处理领域中一项典型的文本到文本生成任务,旨在提取和概括一篇或多篇输入文档的关键信息,生成简洁、流畅又准确的摘要文本.自动文本摘要技术涉及自然语言理解和自然语言生成技术,并能应用于多种实际场景,包括文档索引、标题生成和内容创建,因此受到学术界和工业界的长期关注.近年来,基于神经网络的深度文本摘要模型得到广泛研究.结合先进的预训练技术,现有的深度文本摘要模型已经具备流畅的语言表达能力,能够生成较为通顺的摘要.然而,模型生成的摘要仍然存在表达不准确的问题,与原文存在信息偏差或包含原文以外的信息.该问题被称为“幻觉”问题,仍是一个巨大的挑战.针对这个问题,该文从因果的角度分析了基于预训练模型的深度文本摘要方法存在的偏差来源,并设计了去偏方法.因果理论为理解和建模复杂系统提供了一个强大的框架.在文本摘要系统中,因果推理可以帮助识别文档、摘要和语言先验之间的因果关系.理解这些变量之间的因果关系,有助于设计出针对系统中潜在偏差来源的去偏方法.具体来说,该文首先探究了文本摘要任务的因果结构,定义和分析了摘要任务的因果图.分析表明,摘要会受到预训练过程中习得的语言先验的影响.其中,语言先验包含的噪声会导致生成的摘要有偏.由于先前的摘要模型没有考虑或规避语言先验中潜在噪声的影响,导致模型生成的摘要中容易出现原文没有的信息.为此,该文根据因果理论提出了面向文本摘要的反事实纠偏方法.受到人类行为的启发,该文根据是否和原文交互,显式地区分语言先验中的有用知识和噪声,然后建模噪声对摘要的影响并从总体影响中去除.在XSUM和CNN/DailyMail数据集上的实验表明,该模型在Rouge-1、Rouge-2和Rouge-L指标上分别比基线方法BART提高0.75%、0.54%和0.46%以及1.29%、2.08%和1.20%,并且在人工评价中具备良好的流畅性和忠实性.本文提出的方法是一个通用的框架,适用于不同的深度文本摘要模型.通过利用因果理论,它对文本摘要领域以及其他文本生成任务有一定的启发,增加了该领域方法的可解释性.; 来源：详细信息评论

支持Unikernel的流式计算引擎：Hummer: 收藏
分享
引用; 《计算机学报》2019年第8期42卷 1755-1766页; 作者：李冰张志斌钟巧灵程学旗中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室北京100190 中国科学院大学计算机与控制学院北京100049; 社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感...; 社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感,数据价值随着处理时长的增长而快速递减.传统流式计算引擎设计中,操作系统、JVM等占用大量计算资源,如何提升计算资源利用率成为目前亟待解决的问题.为此,本文提出了一种基于C++语言实现的支持Unikernel的高性能实时数据分析计算引擎Hummer.首先,通过引入Unikernel机制,Hummer可绕过传统操作系统,直接运行于裸机或虚拟化层,减少传统操作系统无关组件带来的性能开销,支持分布式环境下的快速部署与启动,为高性能大数据计算引擎设计提出新的思路.其次,通过使用Unikernel对计算引擎进行封装,解决了C++应用需本地化编译、难以在集群中部署的问题.最后,系统使用灵活的网络通信方案,支持异构网络部署及网络资源隔离.实验表明,Hummer端到端处理延迟低于30ms,较Flink系统低2倍,较Spark Streaming低15.8倍,且吞吐量达到Flink的2倍.使用Unikernel封装的Hummer系统镜像仅为100MB,启动时间约为2s.; 来源：详细信息评论

深度文本匹配综述: 收藏
分享
引用; 《计算机学报》2017年第4期40卷 985-1003页; 作者：庞亮兰艳艳徐君郭嘉丰万圣贤程学旗中国科学院网络数据科学与技术重点实验室北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100190; 自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题.过去研究文本匹配主要集中在人工定义特征之上的关系学习,模型的效果很依赖特征的设计.最近深度学习自动从原始数据学习...; 自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题.过去研究文本匹配主要集中在人工定义特征之上的关系学习,模型的效果很依赖特征的设计.最近深度学习自动从原始数据学习特征的思想也影响着文本匹配领域,大量基于深度学习的文本匹配方法被提出,作者称这类模型为深度文本匹配模型.相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,更精细地描述文本匹配问题.根据特征提取的不同结构,深度文本匹配模型可以分为3类:基于单语义文档表达的深度学习模型、基于多语义文档表达的深度学习模型和直接建模匹配模式的深度学习模型.从文本交互的角度,这3类模型具有递进的关系,并且对于不同的应用,具有各自性能上的优缺点.该文在复述问题、自动问答和信息检索3个任务上的经典数据集上对深度文本匹配模型进行了实验,比较并详细分析了各类模型的优缺点.最后该文对深度文本模型未来发展的若干问题进行了讨论和分析.; 来源：详细信息评论

多段落中文阅读理解模型: 收藏
分享
引用; 《模式识别与人工智能》2019年第2期32卷 161-168页; 作者：赵峻瑶庞亮苏立新兰艳艳郭嘉丰程学旗中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190 中国科学院大学计算机与控制学院北京100190; 解决多段落中文阅读理解任务需要考虑证据段落的稀疏性、中文语义的多样性和答案片段的有效性.基于此种情况,文中设计多段落中文阅读理解模型,利用数据增强的方式学习不包含答案的段落,利用字级别编码和中文词性标注丰富中文的语义表示...; 解决多段落中文阅读理解任务需要考虑证据段落的稀疏性、中文语义的多样性和答案片段的有效性.基于此种情况,文中设计多段落中文阅读理解模型,利用数据增强的方式学习不包含答案的段落,利用字级别编码和中文词性标注丰富中文的语义表示,通过答案片段的特征训练答案有效性验证模型.将文中模型应用到CIPS-SOGOU事实类问答数据中,实验表明,完全匹配率和F1分数的平均分均有所提高.; 来源：详细信息评论

基于梯度的对抗排序攻击方法: 收藏
分享
引用; 《模式识别与人工智能》2022年第3期35卷 254-261页; 作者：吴晨张儒清郭嘉丰范意兴中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190 中国科学院大学计算机与控制学院北京100190; 互联网检索中普遍存在排名竞争这种对抗攻击行为,会产生许多不良影响,因此对攻击方法的研究有助于设计更鲁棒的排序模型.已有的攻击方法容易被人识别且无法有效攻击神经排序模型.因此,文中提出基于梯度的对抗排序攻击方法.方法分为3个模...; 互联网检索中普遍存在排名竞争这种对抗攻击行为,会产生许多不良影响,因此对攻击方法的研究有助于设计更鲁棒的排序模型.已有的攻击方法容易被人识别且无法有效攻击神经排序模型.因此,文中提出基于梯度的对抗排序攻击方法.方法分为3个模块:基于梯度大小的词重要度排序、基于梯度的排序攻击和基于词嵌入的同义词替换.针对给定的目标排序模型,首先基于构建的排序攻击目标进行梯度回传,利用梯度信息在指定文档上找到最重要的词.然后,基于投影梯度攻击原理,在词向量空间上对这些最重要的词进行扰动.最后,利用同义词替换技术将这些最重要的词替换为和原词语义相近且和扰动后的词向量最近邻的词,完成文档扰动.在MQ2007、MS MARCO数据集上的实验验证文中方法的有效性.; 来源：详细信息评论

面向多片段答案的抽取式阅读理解模型: 收藏
分享
引用; 《计算机学报》2020年第5期43卷 856-867页; 作者：苏立新郭嘉丰范意兴兰艳艳徐君程学旗中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190 中国科学院大学北京100190 中国科学院大学北京100049; 随着搜索技术的发展,抽取式阅读理解已经成为搜索引擎中重要的组成部分.给定问题和文本,抽取式阅读理解任务要求从文本中定位出问题的答案.已有工作仅考虑答案片段由文本中的一个片段组成的情况,因此把该问题建模为输入问题和文本,预测...; 随着搜索技术的发展,抽取式阅读理解已经成为搜索引擎中重要的组成部分.给定问题和文本,抽取式阅读理解任务要求从文本中定位出问题的答案.已有工作仅考虑答案片段由文本中的一个片段组成的情况,因此把该问题建模为输入问题和文本,预测出两个文本中的位置索引去指示答案的起始和结束位置.然而现实应用中存在大量问题其答案往往由文本中一个或多个片段组成,想要回答该问题需要从文本中定位出若干的文本片段,而不再是单一片段.已有的阅读理解模型研究主要关注在模型底层结构的设计,对于多片段答案的情况未予考虑,导致已有模型无法从文本中抽取多个答案片段去回答问题.本文提出面向多片段答案的抽取式阅读理解模型BERTBoundary,该模型采用预训练的BERT作为底层结构进行文本和问题的理解.BERT通过自我注意力机制和前向神经网络对文本和问题进行编码表示,同时利用在大规模无监督语料上进行BERT模型参数的预训练达到更强的文本理解.利用新颖的边界序列标注方式去建模一段文本中多个答案片段,模型对答案的起始位置和结束位置分别进行序列标注,对每个词进行二分类,判断其是否是答案的起始位置或者结束位置,并通过简单有效的序列标注方式进行答案片段的解码.BERT-Boundary结合了BERT的文本理解能力和边界序列标注的多片段建模能力.我们在构造的大规模多片段答案的阅读理解数据集上进行详尽地实验和分析,实验结果表明,BERT-Boundary的性能比基线方法取得一致的提升.我们进一步在不同答案片段长度和答案片段数量上比较我们的模型和基线方法,实验数据表明,我们的方法比基线方法取得一致的提升.我们的代码公开发布在https://***/lixinsu/multi_span.; 来源：详细信息评论

基于相关修正的无偏排序学习方法: 收藏
分享
引用; 《计算机研究与发展》2022年第12期59卷 2867-2877页; 作者：王奕婷兰艳艳庞亮郭嘉丰程学旗中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所)北京100190 中国科学院大学北京100049 清华大学智能产业研究院北京100084 中国科学院计算技术研究所数据智能系统研究中心北京100190; 用户点击数据较文档的相关标签更易被获取且能反映用户兴趣,将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声,因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无...; 用户点击数据较文档的相关标签更易被获取且能反映用户兴趣,将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声,因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无法完全消除偏差的问题,提出一种基于相关修正的无偏排序学习方法.首先,利用现有小规模相关标注数据训练排序模型,对候选文档进行较精准的相关得分预测;再基于用户点击和文档相关得分训练点击倾向模型;最后,将得到的模型参数设为对偶去偏初始值并联合训练.该方法不影响模型上线的计算速度,可用于在线学习场景,模拟不同程度偏差噪声并在真实点击场景下进行测试,结果表明该方案能够有效提升现有无偏排序学习方法表现.; 来源：详细信息评论

知识图谱可解释推理研究综述: 收藏
分享
引用; 《软件学报》2022年第12期33卷 4644-4667页; 作者：侯中妮靳小龙陈剑赟官赛萍王元卓程学旗中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所)北京100190 中国科学院大学计算机科学与技术学院北京100049 北京市信息技术研究所北京100094; 面向知识图谱的知识推理旨在通过已有的知识图谱事实,去推断新的事实,进而实现知识库的补全.近年来,尽管基于分布式表示学习的方法在推理任务上取得了巨大的成功,但是他们的黑盒属性使得模型无法为预测出的事实做出解释.所以,如何设计...; 面向知识图谱的知识推理旨在通过已有的知识图谱事实,去推断新的事实,进而实现知识库的补全.近年来,尽管基于分布式表示学习的方法在推理任务上取得了巨大的成功,但是他们的黑盒属性使得模型无法为预测出的事实做出解释.所以,如何设计用户可理解、可信赖的推理模型成为了人们关注的问题.从可解释性的基本概念出发,系统梳理了面向知识图谱的可解释知识推理的相关工作,具体介绍了事前可解释推理模型和事后可解释推理模型的研究进展;根据可解释范围的大小,将事前可解释推理模型进一步细分为全局可解释的推理和局部可解释的推理;在事后解释模型中,回顾了推理模型的代表方法,并详细介绍提供事后解释的两类解释方法.此外,还总结了可解释知识推理在医疗、金融领域的应用.随后,对可解释知识推理的现状进行概述,最后展望了可解释知识推理的未来发展方向,以期进一步推动可解释推理的发展和应用.; 来源：详细信息评论

基于多表达的第一阶段语义检索模型: 收藏
分享
引用; 《计算机工程与应用》2023年第4期59卷 139-146页; 作者：蔡银琼范意兴郭嘉丰张儒清中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190 中国科学院大学北京100190; 当前,信息检索系统通常采用“检索+重排序”的多级流水线架构。基于稠密表示的检索模型已经被逐渐应用到第一阶段检索中,并展现出了相比传统的稀疏向量空间模型更好的性能。考虑到第一阶段检索所需的高效性,大多数情况下这些模型的基本...; 当前,信息检索系统通常采用“检索+重排序”的多级流水线架构。基于稠密表示的检索模型已经被逐渐应用到第一阶段检索中,并展现出了相比传统的稀疏向量空间模型更好的性能。考虑到第一阶段检索所需的高效性,大多数情况下这些模型的基本架构都采用双编码器(bi-encoder)结构。对查询和文档进行独立的编码,分别得到一个稠密表示向量,然后基于获得的查询和文档表示使用简单的相似度函数计算查询-文档对的得分。然而,在编码文档的过程中查询是不可知的,而且文档相比查询而言通常包含更多的主题信息,因此这种简单的单表示模型可能会造成严重的文档信息丢失。为了解决这个问题,设计了一种新的语义检索方法MDR(multi-representation dense retrieval),将文档编码成多个稠密向量表示。同时,该方法引入覆盖率(coverage)机制来保证多个向量之间的差异性,从而能够覆盖文档中不同主题的信息。为了评估模型性能,在MS MARCO数据集上进行了段落排序和文档排序任务,实验结果证明了MDR方法的有效性。; 来源：详细信息评论

SparkCRF：一种基于Spark的并行CRFs算法实现: 收藏
分享
引用; 《计算机研究与发展》2016年第8期53卷 1819-1828页; 作者：朱继召贾岩涛徐君乔建忠王元卓程学旗东北大学计算机科学与工程学院沈阳110819 中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190; 条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本...; 条件随机场(condition random fields,CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing,NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用"分而治之"的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率.; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：