看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于注意力机制和集成学习的网页黑名单判别方法 收藏
基于注意力机制和集成学习的网页黑名单判别方法

基于注意力机制和集成学习的网页黑名单判别方法

作     者:周超然 赵建平 马太 周欣 ZHOU Chaoran;ZHAO Jianping;MA Tai;ZHOU Xin

作者机构:长春理工大学计算机科学技术学院长春130022 

基  金:吉林省科技发展计划项目(20190303133SF) 吉林省教育厅“十三五”科学技术项目(JJKH20200796KJ) 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2021年第41卷第1期

页      码:133-138页

摘      要:搜索引擎作为互联网主要应用之一,能够根据用户需求从互联网资源中检索并返回有效信息。然而,得到的返回列表往往包含广告和失效网页等噪声信息,而这些信息会干扰用户的检索与查询。针对复杂的网页结构特征和丰富的语义信息,提出了一种基于注意力机制和集成学习的网页黑名单判别方法,并采用本方法构建了一种基于集成学习和注意力机制的卷积神经网络(EACNN)模型来过滤无用的网页。首先,根据网页上不同种类的HTML标签数据,构建多个基于注意力机制的卷积神经网络(CNN)基学习器;然后,采用基于网页结构特征的集成学习方法对不同基学习器的输出结果执行不同的权重计算,从而实现EACNN的构建;最后,将EACNN的输出结果作为网页内容分析结果,从而实现网页黑名单的判别。所提方法通过注意力机制来关注网页语义信息,并通过集成学习的方式引入网页结构特征。实验结果表明,与支持向量机(SVM)、K近邻(KNN)、CNN、长短期记忆(LSTM)网络、GRU、结合注意力机制的卷积神经网络(ACNN)等基线模型相比,所提模型在所构建的面向地理信息领域的判别数据集上具有最高的准确率(0.97)、召回率(0.95)和F1分值(0.96),验证了EACNN在网页黑名单判别工作中的优势。

主 题 词:网页黑名单 判别模型 网页结构特征 语义信息 注意力机制 集成学习 深度学习 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.11772/j.issn.1001-9081.2020081379

馆 藏 号:203101705...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分