看过本文的还看了

相关文献

该作者的其他文献

文献详情 >非结构化表格文档数据抽取与组织模型研究 收藏
非结构化表格文档数据抽取与组织模型研究

非结构化表格文档数据抽取与组织模型研究

作     者:张元鸣 陈苗 陆佳炜 徐俊 肖刚 ZHANG Yuanming;CHEN Miao;LU Jiawei;XU Jun;XIAO Gang

作者机构:浙江工业大学计算机科学与技术学院浙江杭州310023 浙江工业大学机械工程博士后流动站浙江杭州310014 

基  金:浙江省钱江人才计划D类项目(QJD1302009) 浙江省重大科技专项资助项目(2014C01408) 

出 版 物:《浙江工业大学学报》 (Journal of Zhejiang University of Technology)

年 卷 期:2016年第44卷第5期

页      码:487-494页

摘      要:针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.

主 题 词:非结构化表格文档 数据抽取 结构化数据模型 数据分析 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1006-4303.2016.05.004

馆 藏 号:203194350...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分