看过本文的还看了

相关文献

该作者的其他文献

文献详情 >PEIF:基于并行机群的大数据实体识别算法 收藏
PEIF:基于并行机群的大数据实体识别算法

PEIF:基于并行机群的大数据实体识别算法

作     者:李明达 王宏志 张佳程 李建中 高宏 Li Mingda;Wang Hongzhi;Zhang Jiacheng;Li Jianzhong;Gao Hong

作者机构:哈尔滨工业大学计算机科学与技术学院哈尔滨150001 

基  金:国家"九七三"重点基础研究发展计划基金项目(2012CB316200) 国家自然科学基金项目(61003046 61111130189) 国家"八六三"高技术研究发展计划基金项目(2012AA011004) 国家博士后基金项目(20090450126 201003447) 教育部高等学校博士学科点专项科研基金项目(20102302120054) 哈尔滨工业大学优秀青年教师培养计划基金项目(HITQNJS.2009.052) 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2013年第50卷第S1期

页      码:211-220页

摘      要:数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别.

主 题 词:实体识别 大数据 并行处理方法 Hyracks平台 n-Gram算法 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 

核心收录:

馆 藏 号:203125455...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分