看过本文的还看了

相关文献

该作者的其他文献

文献详情 >中文电子文档的数学公式定位研究 收藏
中文电子文档的数学公式定位研究

中文电子文档的数学公式定位研究

作     者:林晓燕 高良才 汤帜 LIN Xiaoyan;GAO Liangcai;TANG Zhi

作者机构:北京大学计算机科学技术研究所北京100080 

基  金:国家重点基础研究发展计划(2012CB724108) 国家自然科学基金(61202232)资助 

出 版 物:《北京大学学报(自然科学版)》 (Acta Scientiarum Naturalium Universitatis Pekinensis)

年 卷 期:2014年第50卷第1期

页      码:17-24页

摘      要:区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法;针对公式定位中的过分割问题,提出行合并与词块合并等后处理手段。实验结果表明,该方法可以有效地从中文电子文档中自动定位公式区域。此外,构建了公开可用的中文数据集,以促进不同数学公式定位方法间的相互比较及性能评估。

主 题 词:数学公式识别 数学公式定位 电子文档 中文文档 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.13209/j.0479-8023.2014.009

馆 藏 号:203118118...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分