摘要:很多基于Map Reduce的文本挖掘算法并行化,可以处理大规模的文本,但是算法实现困难,并行化效率低。新一代的大数据处理框架Spark应运而生,主要目的是为了提高挖掘效率,保证文本挖掘的有效性。文本挖掘的核心是文本聚类/分类算法,而传统的文本算法无法处理大规模文本。研究大规模数据并行处理技术和文本聚类/分类技术,提出基于Spark的文本挖掘并行算法,不仅可以有效的保障数据挖掘精度,还大大提升了挖掘效率。
关键词:so2 数据 比对 监测方法
单位:长春金融高等专科学校信息技术学院; 吉林长春130028
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社