基于Hadoop平台的TFIDF算法并行化研究_参考资料-爱发表

线上期刊服务咨询，发表咨询：400-808-1701 订阅咨询：400-808-1721

购物车(0) 个人中心关于我们在线客服

首页 > 期刊 > 计算机工程与科学 > 基于Hadoop平台的TFIDF算法并行化研究【正文】

基于Hadoop平台的TFIDF算法并行化研究

王静宇赵伟燕计算机工程与科学 2014年第06期

摘要：针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程.通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验.实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化.

关键词：文本分类 mapreduce 并行化 tfidf算法

单位：北京科技大学计算机与通信工程学院北京100083 内蒙古科技大学信息工程学院内蒙古包头014010

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

在线咨询期刊咨询

相关期刊

科技与经济计算机与信息技术水利科技与经济计量与测试技术制造技术与机床交通与计算机电气技术与经济机械科学与技术审计与经济研究计算机教育

相关范文

基于大概念的语文教学基于模型的优化设计

计算机工程与科学

北大期刊

￥624.00

关注 46人评论|5人关注

服务介绍