看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于混合策略的公众健康领域新词识别方法研究 收藏
基于混合策略的公众健康领域新词识别方法研究

基于混合策略的公众健康领域新词识别方法研究

作     者:侯丽 李姣 侯震 陈松景 Hou Li;Li Jiao;Hou Zhen;Chen Songjing

作者机构:中国医学科学院医学信息研究所北京100020 

基  金:国家社会科学基金"面向知识服务的公众健康知识组织体系构建研究"(项目编号:14BTQ032) "十二五"国家科技支撑计划课题"公众健康知识整合与服务技术研究与应用"(项目编号:2013BAI06B01)研究成果之一 

出 版 物:《图书情报工作》 (Library and Information Service)

年 卷 期:2015年第59卷第23期

页      码:115-123页

摘      要:[目的 /意义]从互联网公众查询数据中发现公众使用的健康术语,为建立公众健康术语与医学专业术语的映射提供基础,进而优化健康类知识服务平台的知识组织与管理性能。[方法 /过程]设计规则与NGram相结合的健康术语新词的识别模型,采集公众查询数据,开展实验验证,通过多次实验,逐步完善过滤语料集合,结合人工判读,不断优化并验证方案的有效性。[结果 /结论]从互联网中公众提问句抽取出规则,结合统计算法进行公众使用的健康类新词抽取,该技术方法对识别公众使用的健康术语具有一定的通用性,能为建立公众术语与医学术语映射提供数据基础。实验结果表明:基于规则进行公众日志数据预处理,能为后续的实验方案提供较好的预处理文本,而采用N-Gram及各种过滤规则结合的术语识别方法,能较好地识别发现短文本中的新词。

主 题 词:互联网查询数据 公众健康术语 N-Gram 实体识别 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.13266/j.issn.0252-3116.2015.23.017

馆 藏 号:203166846...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分