云框架下的文本挖掘算法并行化研究

邢翀设备管理与维修 2017年第19期

摘要：很多基于Map Reduce的文本挖掘算法并行化,可以处理大规模的文本,但是算法实现困难,并行化效率低。新一代的大数据处理框架Spark应运而生,主要目的是为了提高挖掘效率,保证文本挖掘的有效性。文本挖掘的核心是文本聚类/分类算法,而传统的文本算法无法处理大规模文本。研究大规模数据并行处理技术和文本聚类/分类技术,提出基于Spark的文本挖掘并行算法,不仅可以有效的保障数据挖掘精度,还大大提升了挖掘效率。

关键词：so2 数据比对监测方法