目前的大数据技术架构
目前的大数据技术架构的不足
ü缺少真正意义上的流式场景的计算模型,目前都通过降低oozie定时调度的时长,而且hadoop是批处理技术模型,处理流式场景的应用,效率很低。
ü在数据挖掘场景上,mahout虽然支持很多数据挖掘算法,但大多数数据挖掘算法都迭代计算的,mahout是基于mapreduce的,每次迭代都要将结果存储在hdfs中,所以在处理速度上还是可以提升的。
ü目前大数据技术是基于hadoop1.X之上构建,hadoop是非常优秀批处理技术模型,与其他计算模型整合很难,比如:流式计算模型Storm。需要一种能整合多种计算模型的架构,来统一调度集群的资源,如:cpu、内存。
ü目前hive和impala版本有些低了,新版本hive和impala性能和稳定性提升不少。
目前的大数据架构
Hadoop2.0两个最大改进
1、集群资源调用框架YARN,已经集成多种计算模型。
2、HDFS Federation 架构提升hdfs扩展性,解决了namenode的单点问题。
Yarn可以管理多种大数据计算模型,比如:流式计算和hadoop的批处理计算可以在cluster内共同执行。
YARN软件架构
YARN资源调度
üspark是一种与hadoop相似的开源集群,spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟,减少磁盘IO开销。
üspark可以无缝的和hdfs结合
ü可以直接调用hadoop中inputformat/outputformat
ü已经成为大数据行业中支撑数据挖掘的关键技术
Shark
像hive一样可以通过sqlquery生成spark的job在集群中执行
Spark Ecosystem对数据挖掘技术支持
üMLbase是基于Spark的机器学习算法库。
üGraphx是基于spark的图计算引擎。
üTachyon在hdfs构建在上的基于内存的分布式文件系统,实现了hdfs接口可以和hadoop无缝的集成。
ü计算模型和存储都基于内存,可以实现一些复杂业务场景。
新的大数据架构技术架构