(3)yarn:是一个资源调度平台,负责给计算机框架分配计算资源
一、hdfs架构分析 1、负责数据的分布式存储
2、主从结构:主节点 namenode 从节点 datanode
3、namenode负责:接收用户的操作请求,是用户操作的入口
维护文件系统的目录结构,称为命名空间
4、datenode负责:存储数据
二、yarn架构分析 1、资源的调度和管理平台
2、主从结构:主节点:ResourceManger 从节点:NodeManger
3、ResourcManger负责:集群资源的分配和调度,MapReduce、Storm、Spark等应用,必须实现
Application接口才能被RM管理
4、NodeManger负责:单节点资源的管理(cpu+内存)
三、mapreduce架构分析 1、依赖磁盘io的批量处理计算模型
2、主从结构 :主节点:MRAppMaster 从节点 :task
3、MRAppMaster负责:接收客户端提交的计算任务
把计算任务分给NodeManager的Container中执行,即任务调度 Container是YARN中资源的抽象,它封装了某个节点上一定量的资源(CPU和内存两类资源) Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中的资源调度器异步 分配给ApplicationMaster Container的运行是由ApplicationMaster向资源所在的NodeManager发起的监控Container中Task的执行情况
4、Task负责:处理数据
3、hadoop特点 1、扩容能力:能可靠的存储和处理pb级别的数据,如果数据量更大,增加节点就可以了 2、成本低:可以通过普通机器组成的服务器集群来分发和处理数据,这些服务器的节点可 以达到上千个 3、高效率:通过分发计算程序,hadoop可以在数据所在的节点上(本地)并行的处理他 们,这使得处理非常的迅速 4、可靠性:hadoop能够自动的维护数据的多份副本,并且在任务失败后能够自动的重新 部署计算任务