看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于字频差算法与左切分词库构建的专利文献组件名称识别方法 收藏
基于字频差算法与左切分词库构建的专利文献组件名称识别方法

基于字频差算法与左切分词库构建的专利文献组件名称识别方法

作     者:孔嘉斌 吕剑文 刘江南 杜文轩 KONG Jiabin;LYU Jianwen;LIU Jiangnan;DU Wenxuan

作者机构:湖南大学汽车车身先进设计制造国家重点实验室长沙410082 

基  金:国家科技部创新方法专项资助项目(2019IM050100) 湖南省自然科学基金(2018JJ2039) 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2023年第50卷第7期

页      码:229-236页

摘      要:机械专利文献蕴含着海量以组件名称为信息单元的领域知识信息,组件名称用词灵活多变,具有独特、复杂和生僻等特点,难以被计算机准确识别,成为专利知识挖掘的一大阻碍。为了提出组件名称的高效识别方法,剖析并提炼专利文本语句中的组件名称构词特征;从组件名称相关的外部用词入手,通过标识附图标记,识别其左侧的名称字符,自动从文本中检索候选名称,并构建组件候选名称集合;提出了字频差算法,过滤候选名称集合的冗余字符;提出了动态构建左切分词库算法,进一步剔除未能被过滤的冗余字符;通过交叉实验测试和分析识别过程中字频差先验阈值、词频阈值和字频差阈值的选取对识别效果的影响,形成一种面向机械领域中文专利的组件名称识别三段式综合方法。最后通过对实验结果的对比分析,验证了该方法的有效性与高效性。

主 题 词:专利文本 冗余字符 附图标记 字频差 左切分词 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.11896/jsjkx.220500068

馆 藏 号:203122446...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分