看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于XSLT的PDF信息抽取技术的研究 收藏
基于XSLT的PDF信息抽取技术的研究

基于XSLT的PDF信息抽取技术的研究

作     者:宋艳娟 李金铭 陈振标 Song Yanjuan;Li Jinming;Chen Zhenbiao

作者机构:福建农林大学计算机与信息学院福州350002 福州大学图书馆福州350002 

基  金:福建省高等学校科技项目"数字图书馆资源整合与分类技术的研究(编号:JA04164)"资助 

出 版 物:《计算机与数字工程》 (Computer & Digital Engineering)

年 卷 期:2008年第36卷第5期

页      码:156-159页

摘      要:以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统。首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取。测试结果表明,系统的抽取效果良好,并具有较强的扩展性。

主 题 词:信息抽取 PDF XML XSLT 

学科分类:0810[工学-土木类] 08[工学] 080401[080401] 0804[工学-材料学] 080402[080402] 0835[0835] 081002[081002] 

D O I:10.3969/j.issn.1672-9722.2008.05.045

馆 藏 号:203387289...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分