看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Multi-Agent的分布式文本聚类模型 收藏
基于Multi-Agent的分布式文本聚类模型

基于Multi-Agent的分布式文本聚类模型

作     者:乔少杰 韩楠 金澈清 高云君 李天瑞 唐常杰 康健 QIAO ShaoJie;HAN Nan;JIN CheQing;GAO YunJun;LI TianRui;TANG ChangJie;KANG Jian

作者机构:成都信息工程大学网络空间安全学院成都610225 成都信息工程大学管理学院成都610103 华东师范大学数据科学与工程学院 华东师范大学计算机科学与软件工程学院上海200062 浙江大学计算机科学与技术学院杭州310027 西南交通大学信息科学与技术学院成都611756 四川大学计算机学院成都610065 

基  金:国家自然科学基金(61772091 61100045  61165013 61363037)、教育部人文社会科学研究规划基金(15YJAZH058)、四川高校科研创新团队建设计划(18TD0027)、成都信息工程大学中青年学术带头人科研基金(J201701)、四川省科技计划项目(2018JY0448)、广西自然科学基金项目(2017JJD170122y) 教育部人文社会科学研究青年基金(14YJCZH046)、四川省教育厅资助科研项目(14ZB0458)、成都市软科学项目(2015-RK00-00059- 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2018年第41卷第8期

页      码:1709-1721页

摘      要:Internet网络大数据与日俱增,当前亟需设计出能够处理大规模半结构化和无结构化文本数据的新型聚类方法.现有工作的不足体现在:应用的文本集较为单一,对半结构和无结构的Web文本进行聚类的准确性较低,当文档规模较大时聚类的时效性无法得到保证.针对上述不足,提出新的基于群体智能的文本聚类模型Switch(a Swarm intelligence based text clustering algorithm),支持包括藏文、汉文、英文等多语言的文本聚类.基本思想为:构建文本的向量空间模型,借助自然语言处理和数据预处理技术得到由特征向量构成的文本集合;对群体智能文本聚类算法的参数进行初始化,不同智能体可以在二维文本空间上任意移动,计算其所在网格区域文本与其他样本的相似度,利用概率转换函数求取智能体拿起和放下样本的概率,进而实现文本聚类.提出分布式动态文本流聚类的multi-agent架构,将这一架构应用于群体智能文本聚类算法中,分布式工作环境被设计成相互通信的软agents集合,设计了相似度计算,智能体状态感知,文本解析三类智能体.通过解决智能体状态同步、处理器负载均衡和处理器之间通信的代价问题,将计算任务分成不同子任务,在多处理器上分布执行.此外,阐述了基于multi-agent的分布式群体智能文本聚类方法的工作原理,给出一种分布式通信架构,各种智能体相互通信,相互协作完成文本聚类工作.基于multi-agent通过JADE(Java Agent Development Framework)中间件实现集群上的分布式文本聚类,优势在于:分布式计算和大内存处理较单机具有更好的处理能力,借助JADE中间件能够使智能体间相互通信及协作,实现高效的文本聚类.在大量真实的半结构化包含藏文、汉文和英文多语言的Web文本数据集上进行实验,以藏文为例,实验结果表明:相比于k-means和单节点上的群体智能聚类算法,提出的分布式架构下文本聚类算法准确性平均高出12.2%和3.8%,时间代价平均缩减了73.0%和50.6%.在n个节点集群下agents数量介于150~250之间时,文本聚类时间代价近似可以达到单节点的1/n.

主 题 词:multi-agent 分布式架构 群体智能 文本聚类 

学科分类:0810[工学-土木类] 0808[工学-自动化类] 0839[0839] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 081202[081202] 

核心收录:

D O I:10.11897/SP.J.1016.2018.01709

馆 藏 号:203312991...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分