看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于神经网络编码的真值发现 收藏
基于神经网络编码的真值发现

基于神经网络编码的真值发现

作     者:曹建军 常宸 翁年凤 陶嘉庆 江春 CAO Jian-jun;CHANG Chen;WENG Nian-feng;TAO Jia-qing;JIANG Chun

作者机构:国防科技大学第六十三研究所江苏南京210007 陆军工程大学指挥控制工程学院江苏南京210007 南京工业大学工业工程系江苏南京210009 

基  金:国家自然科学基金(61371196) 中国博士后科学基金(20090461425,201003797) 国家重大科技专项(2015ZX01040201-003) 

出 版 物:《计算机工程与科学》 (Computer Engineering & Science)

年 卷 期:2021年第43卷第9期

页      码:1546-1557页

摘      要:由于互联网的开放性和多源性,不同互联网平台提供的数据参差不齐,多个数据源对同一实体的描述可能存在冲突,真值发现是消解语义冲突,提高数据质量的重要技术手段之一。传统真值发现算法通常假设数据源可靠度与观测值可信度间的关系可用简单函数表示,设计迭代规则或概率模型进行真值发现,而人工定义的条件通常难以反映数据底层的真实分布,导致真值发现结果不理想。针对此问题,提出基于神经网络编码的真值发现方法TDNNE。首先利用“数据源-数据源”“数据源-观测值”关系及真值发现的假设构造双损失深度神经网络;然后利用该网络将数据源与观测值嵌入到高维空间,分别表示数据源可靠度与观测值可信度,使可靠数据源与可信观测值彼此接近(同时,不可靠数据源与不可信观测值彼此接近);最后基于嵌入空间进行真值发现。与传统方法相比,TDNNE方法不需要人工定义迭代规则或数据分布,而是利用神经网络自动学习数据源观测值间复杂的关系依赖。在真实数据集上的实验结果表明,该方法准确率较基于迭代的Accu等方法准确率提高约2%~25%,较基于概率图模型的3-Estimates等方法提高约2%~4%,较基于优化的CRH方法提高约2%~5%,较基于神经网络的FFMN方法提高约1%~2%。

主 题 词:数据质量 数据清洗 冲突消解 真值发现 神经网络 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1007-130X.2021.09.004

馆 藏 号:203104974...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分