看过本文的还看了

相关文献

该作者的其他文献

文献详情 >正则表达式finditer提取文本数据方法研究 收藏
正则表达式finditer提取文本数据方法研究

正则表达式finditer提取文本数据方法研究

作     者:张驰庚 金智鹏 ZHANG Chigeng;JIN Zhipeng

作者机构:嘉兴职业技术学院现代教育技术中心浙江嘉兴314036 嘉兴职业技术学院教务处浙江嘉兴314036 

出 版 物:《信息技术与信息化》 (Information Technology and Informatization)

年 卷 期:2021年第5期

页      码:151-153页

摘      要:合理设计正则表达式finditer,可快速提取文本字段,若与Python Scrapy结合可提取网页文本知识字段。首先,设计正则表达式finditer与元字符"|"组合的程序C提取普通本文字段;其次,将组合程序C嵌入到Python Scrapy程序中,可对web网页大量文本提取相关数据。结合实证分析,研究提取长三角企业对IT知识需求网页文本的相关数据。结果表明,finditer与元字符"|"组合设计的程序C既可单独提取文本字段,也可与Python Scrapy结合提取网页文本各类数据。

主 题 词:正则表达式 文本 web文本 知识字段 分类计数 

学科分类:08[工学] 080402[080402] 0804[工学-材料学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1672-9528.2021.05.049

馆 藏 号:203103583...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分