欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

Hadoop2.0

时间:2023-06-11

目前的大数据技术架构

目前的大数据技术架构的不足

ü缺少真正意义上的流式场景的计算模型,目前都通过降低oozie定时调度的时长,而且hadoop是批处理技术模型,处理流式场景的应用,效率很低。

ü在数据挖掘场景上,mahout虽然支持很多数据挖掘算法,但大多数数据挖掘算法都迭代计算的,mahout是基于mapreduce的,每次迭代都要将结果存储在hdfs中,所以在处理速度上还是可以提升的。

ü目前大数据技术是基于hadoop1.X之上构建,hadoop是非常优秀批处理技术模型,与其他计算模型整合很难,比如:流式计算模型Storm。需要一种能整合多种计算模型的架构,来统一调度集群的资源,如:cpu、内存。

ü目前hive和impala版本有些低了,新版本hive和impala性能和稳定性提升不少。

目前的大数据架构

Hadoop2.0两个最大改进

1、集群资源调用框架YARN,已经集成多种计算模型。

2、HDFS Federation 架构提升hdfs扩展性,解决了namenode的单点问题。

Yarn可以管理多种大数据计算模型,比如:流式计算和hadoop的批处理计算可以在cluster内共同执行。

YARN软件架构

YARN资源调度

üspark是一种与hadoop相似的开源集群,spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟,减少磁盘IO开销。

üspark可以无缝的和hdfs结合

ü可以直接调用hadoop中inputformat/outputformat

ü已经成为大数据行业中支撑数据挖掘的关键技术

Shark

像hive一样可以通过sqlquery生成spark的job在集群中执行

Spark Ecosystem对数据挖掘技术支持

üMLbase是基于Spark的机器学习算法库。

üGraphx是基于spark的图计算引擎。

üTachyon在hdfs构建在上的基于内存的分布式文件系统,实现了hdfs接口可以和hadoop无缝的集成。

ü计算模型和存储都基于内存,可以实现一些复杂业务场景。

新的大数据架构技术架构

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。