摘要:一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理.首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce (Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题.对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点.可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案.
关键词:大数据 hadoop生态系统 mapreduce hdfs 列存储数据库
单位:图文信息中心7楼B719 上海市松江区松江大学城人民北路2999号201620
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社