看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向查询式实体解析的多属性数据索引技术 收藏
面向查询式实体解析的多属性数据索引技术

面向查询式实体解析的多属性数据索引技术

作     者:孙琛琛 申德荣 肖迎元 李玉坤 SUN Chen-Chen;SHEN De-Rong;XIAO Ying-Yuan;LI Yu-Kun

作者机构:计算机视觉与系统省部共建教育部重点实验室(天津理工大学)天津300384 东北大学计算机科学与工程学院辽宁沈阳110169 

基  金:国家自然科学基金(62002262,61672142,61602103,62072086,62072084) 国家重点研发计划(2018YFB1003404) 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2022年第33卷第6期

页      码:2331-2347页

摘      要:实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.

主 题 词:实体解析 多属性数据索引 查询式 数据集成 数据预处理 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

核心收录:

D O I:10.13328/j.cnki.jos.006284

馆 藏 号:203112000...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分