看过本文的还看了

相关文献

该作者的其他文献

文献详情 >企业级海量代码的检索与管理技术 收藏
企业级海量代码的检索与管理技术

企业级海量代码的检索与管理技术

作     者:刘志伟 邢永旭 于澔 李涛 张晓东 LIU Zhi-Wei;XING Yong-Xu;YU Hao;LI Tao;ZHANG Xiao-Dong

作者机构:百度(中国)有限公司上海201210 百度在线网络技术(北京)有限公司北京100193 西安交通大学计算机科学与技术系陕西西安710049 

基  金:国家重点研发计划(2018YFB1003900)~~ 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2019年第30卷第5期

页      码:1498-1509页

摘      要:在大型IT企业中,尤其像Google或者百度,代码搜索已是软件开发过程中不可或缺且频繁的活动,其通过借鉴或复用已有代码,加速开发过程的速度.多年以来,已有大量的研究人员关注代码搜索,且设计出很多优秀的工具.但是已有的研究和工具主要是在小规模或者编程语言单一的代码数据集上,没有从企业实际搜索需求出发,且对用户的查询输入也有所限制,尚缺少一套针对企业级海量代码的检索与管理技术方案.提出了一套企业级海量数据代码搜索引擎的方案和系统实现,面向开发过程中用户最直接的需求,通过离线分析与在线分析,完成对海量代码库的索引构建与检索.其中,离线分析负责代码相关数据的获取与分析、构建索引集群.在线过程负责变换用户的query、对搜索的结果进行高级排序、生成摘要.本系统部署在百度代码库上,为数十TB级的Git代码库构建了索引,平均一次检索时间在1s之内.在百度推出应用以来,访问量逐步增加,现每周平均用户有数千人,每周查询平均有数万次,广受百度工程师好评.

主 题 词:代码搜索 索引 排序 海量代码 

学科分类:08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 081202[081202] 

核心收录:

D O I:10.13328/j.cnki.jos.005718

馆 藏 号:203668344...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分