看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark的ISOMAP算法并行化 收藏
基于Spark的ISOMAP算法并行化

基于Spark的ISOMAP算法并行化

作     者:石陆魁 袁彬 刘文浩 

作者机构:河北工业大学计算机科学与软件学院天津300401 河北省大数据计算重点实验室天津300401 

基  金:天津市应用基础与前沿技术研究计划重点项目(14JCZDJC31600) 河北省自然科学基金(F2013202104)资助 

出 版 物:《中国科学技术大学学报》 (JUSTC)

年 卷 期:2016年第46卷第9期

页      码:711-718页

摘      要:为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,基于Spark的并行ISOMAP算法通过并行执行和计算过程的优化,极大地提高了算法的执行效率,能够适用于大规模数据集的降维处理.

主 题 词:ISOMAP Spark 精确欧式位置敏感哈希 流形学习 大数据 

学科分类:08[工学] 081202[081202] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.0253-2778.2016.09.001

馆 藏 号:203210053...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分