欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

Hadoop的简单概述以及架构

时间:2023-05-15
Hadoop的简单概述以及架构 1、hadoop概述:hadoop是一个适合海量数据分布式存储和分布式计算的平台。 2、hadoop是一个统称,hadoop主要包含三大组件: (1)hdfs:是一个分布式存储框架,适合海量数据存储 (2)mapreduce:是一个分布式计算框架,适合海量数据计算

​ (3)yarn:是一个资源调度平台,负责给计算机框架分配计算资源

一、hdfs架构分析

​ 1、负责数据的分布式存储

​ 2、主从结构:主节点 namenode 从节点 datanode

​ 3、namenode负责:接收用户的操作请求,是用户操作的入口

​ 维护文件系统的目录结构,称为命名空间

​ 4、datenode负责:存储数据

二、yarn架构分析

​ 1、资源的调度和管理平台

​ 2、主从结构:主节点:ResourceManger 从节点:NodeManger

​ 3、ResourcManger负责:集群资源的分配和调度,MapReduce、Storm、Spark等应用,必须实现

​ Application接口才能被RM管理

​ 4、NodeManger负责:单节点资源的管理(cpu+内存)

三、mapreduce架构分析

​ 1、依赖磁盘io的批量处理计算模型

​ 2、主从结构 :主节点:MRAppMaster 从节点 :task

​ 3、MRAppMaster负责:接收客户端提交的计算任务

把计算任务分给NodeManager的Container中执行,即任务调度 Container是YARN中资源的抽象,它封装了某个节点上一定量的资源(CPU和内存两类资源) Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中的资源调度器异步 分配给ApplicationMaster Container的运行是由ApplicationMaster向资源所在的NodeManager发起的监控Container中Task的执行情况

​ 4、Task负责:处理数据

3、hadoop特点 1、扩容能力:能可靠的存储和处理pb级别的数据,如果数据量更大,增加节点就可以了 2、成本低:可以通过普通机器组成的服务器集群来分发和处理数据,这些服务器的节点可 以达到上千个 3、高效率:通过分发计算程序,hadoop可以在数据所在的节点上(本地)并行的处理他 们,这使得处理非常的迅速 4、可靠性:hadoop能够自动的维护数据的多份副本,并且在任务失败后能够自动的重新 部署计算任务

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。