欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

Hadoop基础学习笔记系列(三)Hadoop堆栈

时间:2023-06-24
目录

1 基本Hadoop组件2 应用和框架(在基本组件之上)3 HDFS设计

最初的设计Hadoop2的HDFS 4 MR框架和YARN

MR框架最初的MR框架下一代:YARN 1 基本Hadoop组件

Hadoop CommonHDFSYARNMR 2 应用和框架(在基本组件之上)

Hbase
支持大型表的可扩展数据仓库Hive
数据仓库基础设施,提供数据摘要和即席查询Pig
高级数据流语言和并行计算执行框架Spark
快速通用的计算引擎,可以使用HDFS文件系统。
3 HDFS设计 最初的设计

可扩展的分布式文件系统使用节点(nodes)将数据分布在本地磁盘上多个低成本商品磁盘,高performance

goal:

resilience(快速恢复的能力)(因为有多个磁盘工作,要防止其中的磁盘failure)可扩展本地应用轻量级

设计

多个datanode,data存储在datanode中,默认会复制三份。作用:管理存储、为用户提供读写request,数据块的增删改单个namenode Hadoop2的HDFS

HDFS Federation
存在多个namenode,可以增加命名空间的可扩展性以及performance,同时可以隔离应用,这样在使用应用的时候就不会影响整个文件系统。

多个namemode server多个命名空间(你真的知道什么是 “命名空间” 吗? - 知乎 (zhihu.com))数据存在数据块池中(block pool)高可用性(冗余namenode)异构存储和归档存储(heterogeneous storage and archival storage)
4 MR框架和YARN MR框架

mapreduce原理_mapreduce执行原理详解,各个阶段做了什么?_weixin_39583029的博客-CSDN博客
深入浅出讲解 MapReduce_哔哩哔哩_bilibili
MapReduce shuffle过程详解

软件框架——为了编写并行数据处理应用

优点:

MR计算和HDFS存储节点是same,直接在datanode上进行计算,不用移动data 最初的MR框架

单个 jobtracker每个job一个tasktracker
下一代:YARN

将资源管理和job计划&监控分离Global ResourceManager每个节点都有NodeManager每个应用都有ApplicationMaster

YARN的其他特征

高可用的RM:备用RMTimeLine ServerCgroups:管理容器使用的资源Secure Container

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。