线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于MapReduce的大规模数据集流形学习降维研究

薛永坚 倪志伟 系统工程理论与实践 2014年第S1期

摘要:信息技术的快速发展导致了数据规模的爆炸式增长,传统的机器学习、数据挖掘算法面临新的挑战.流形学习克服了传统线性降维算法的不足,成为十年来降维研究的热点领域.然而流形学习算法复杂度高,对于大规模的数据集并不适用.针对大规模数据集下的流形学习降维问题,提出了基于MapReduce的分布式流形学习算法.该算法采用局部敏感哈希函数将相似点映射到同一个桶中,利用流形具有局部欧氏同胚的性质,在每个桶内采用欧氏距离度量点之间的测地距离,桶之间采用中心点及边缘点来计算修正的测地距离.在大规模的人工合成数据集和真实数据集上的实验表明,该算法能有效地估计数据点间的测地距离,适用于处理大规模数据集的降维问题.

关键词:mapreduce流形学习大规模数据降维局部敏感哈希

单位:合肥工业大学管理学院 教育部过程优化与智能决策重点实验室

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

系统工程理论与实践

CSSCI南大期刊

¥1300.00

关注 24人评论|1人关注