摘要:针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程.通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验.实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化.
关键词:文本分类 mapreduce 并行化 tfidf算法
单位:北京科技大学计算机与通信工程学院 北京100083 内蒙古科技大学信息工程学院 内蒙古包头014010
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社