看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向检索服务的词干提取与相关排序优化研究 收藏
面向检索服务的词干提取与相关排序优化研究

面向检索服务的词干提取与相关排序优化研究

作     者:朱艳 张敬伟 杨青 胡晓丽 单美静 ZHU Yan;ZHANG Jingwei;YANG Qing;HU Xiaoli;SHAN Meijing

作者机构:桂林电子科技大学广西可信软件重点实验室广西桂林541004 桂林电子科技大学广西自动检测技术与仪器重点实验室广西桂林541004 华东政法大学刑事法学院上海201620 

基  金:国家自然科学基金(61862013,U1811264,U1711263) 广西自然科学基金(2020GXNSFAA159117,2018GXNS FAA281199) 广西可信软件重点实验室重点基金(KX202052) 广西自动检测技术与仪器重点实验室主任基金(YQ21102) 

出 版 物:《桂林电子科技大学学报》 (Journal of Guilin University of Electronic Technology)

年 卷 期:2022年第42卷第5期

页      码:354-365页

摘      要:新一代信息技术的兴起以及互联网产业的飞速发展使得数据量呈爆炸式增长。为满足数十亿用户从海量数据中快速获取有效信息的需求,提升搜索引擎的检索质量以及查询效率具有重要意义,同时也面临挑战。一方面,用户的查询词日益复杂,语言词汇形态变异的特点导致检索词变得多样化,而现有词干提取算法普遍存在词干提取不足、词干提取准确率不高等问题;另一方面,在海量数据中检索到满足用户查询要求的文档结果是一项非常耗时的任务,而现有将文档划分到多个服务器处理查询延迟的方法常常会出现尾延迟问题。针对以上问题,在文本预处理阶段,设计了词形规范化算法APS,对规则函数进行重编码,优化了特征词提取;在相关排序阶段,设计了基于一次一得分查询处理策略的随时排序算法SAR,在给定时间预算处理完指定数量倒排段后能够提前终止查询过程,大大减少了查询评估时间。在多个真实数据集上进行了实验,验证了APS算法对于提高词干提取准确率的有效性以及SAR算法对于控制查询延迟的真实性。

主 题 词:词干提取算法 随时排序算法 文本预处理 SAAT 相关排序 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1673-808X.2022.05.002

馆 藏 号:203115354...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分