看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于HDBSCAN的多模态高效不良网页聚类算法设计 收藏
基于HDBSCAN的多模态高效不良网页聚类算法设计

基于HDBSCAN的多模态高效不良网页聚类算法设计

作     者:史磊 邓桂英 张恒 刘宇 肖建芳 SHI Lei;DENG Guiying;ZHANG Heng;LIU Yu;XIAO Jianfang

作者机构:中国互联网络信息中心北京100190 

出 版 物:《微型电脑应用》 (Microcomputer Applications)

年 卷 期:2024年第40卷第6期

页      码:242-246页

摘      要:自二十一世纪以来,大量网页在互联网中被构建,为人们提供了各种信息,不仅加快了信息交换的速度,而且使信息流通的成本大大降低。与此同时大量不良网站不断涌现,然而对于不良网页的认定多基于人工识别,无法应对不良网站的大规模出现,因此提出基于HDBSCAN的多模态高效不良网页聚类算法。利用HDBSCAN对不良网页图片进行初步聚类,对初步聚类的结果叠加使用不良网页文本信息、不良网页结构信息等多个信息要素进一步归类合并,将相似网页合并为一个大而全的图片集合。实验结果表明,相比于HDBSCAN,改进后的聚类算法提高了聚类质量,具有更好的聚类效果,不良网站的处理效率得到明显提升。

主 题 词:HDBSCAN 多模态 不良网页 聚类 

学科分类:0810[工学-土木类] 08[工学] 081001[081001] 

D O I:10.3969/j.issn.1007-757X.2024.06.060

馆 藏 号:203128366...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分