线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

基于Hadoop平台的TFIDF算法并行化研究

王静宇 赵伟燕 计算机工程与科学 2014年第06期

摘要:针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程.通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验.实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化.

关键词:文本分类mapreduce并行化tfidf算法

单位:北京科技大学计算机与通信工程学院 北京100083 内蒙古科技大学信息工程学院 内蒙古包头014010

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与科学

北大期刊

¥624.00

关注 46人评论|5人关注