看过本文的还看了

相关文献

该作者的其他文献

文献详情 >HTML页面中的文献记录分析算法 收藏
HTML页面中的文献记录分析算法

HTML页面中的文献记录分析算法

作     者:曾庆涛 解凯 李业丽 王欣刚 叶宇姗 马少平 ZENG Qing-tao;XIE Kai;LI Ye-li;WANG Xin-gang;YE Yu-shan;MA Shao-ping

作者机构:北京印刷学院信息工程学院北京102600 清华大学计算机科学与技术博士后流动站北京100084 国家新闻出版广电总局广播电视卫星直播管理中心北京100045 

基  金:北京市教委科技创新服务能力建设项目(PXM2016_014223_000025) 北京印刷学院校级重点项目(ea201507) 北京印刷学院教师队伍建设-博士启动金项目(27170116005/062) 北京印刷学院科研项目-出版物数据资产评估实验室建设项目(20190116005/006) 

出 版 物:《北京邮电大学学报》 (Journal of Beijing University of Posts and Telecommunications)

年 卷 期:2017年第40卷第S1期

页      码:85-88页

摘      要:为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.

主 题 词:数字出版 条件随机场 文献记录分析 

学科分类:08[工学] 080402[080402] 0804[工学-材料学] 

核心收录:

D O I:10.13190/j.jbupt.2017.s.019

馆 藏 号:203260355...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分