目录
  1. 1. hadoop生态圈
    1. 1.1. hadoop生态圈图谱
      1. 1.1.1. hadoop生态圈图
      2. 1.1.2. hadoop各个组件工作模式图
    2. 1.2. hadoop生态圈各个组件
      1. 1.2.1. hadoop组件操作流程
      2. 1.2.2. 核心组件
      3. 1.2.3. 协调组件
      4. 1.2.4. 计算模型
      5. 1.2.5. 管理工具
      6. 1.2.6. 数据存储
      7. 1.2.7. 数据处理
      8. 1.2.8. 其他组件
hadoop生态圈

hadoop生态圈

hadoop生态圈图谱

hadoop生态圈图

hadoop生态圈

hadoop各个组件工作模式图

hadoop生态圈关系图

hadoop生态圈各个组件

hadoop组件操作流程

hadoop集群工作流程图
hadoop操作流程

核心组件

  1. HDFS分布式文件系统
    源自于Google的GFS论文,HDFS是GFS的克隆版
    HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本硬件上运行。
    HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
    它提供了一次写入多次读取的机制,数据以块的形式分布在集群中不同的物理机器上。
  2. MapReduce计算模型
    MapReduce是一种用于数据处理的编程模型。
    源自于google的MapReduce论文,Hadoop MapReduce是google MapReduce 克隆版。
    MapReduce是一种分布式计算模型,用以进行大数据量的计算。同一个程序hadoop可以运行用各种语言编写的MapReduce程序。MapReduce程序本质上是并行的,它的优势在于处理大型数据集。它屏蔽了分布式计算框架细节,将计算抽象成map和reduce两部分。
    其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。
    MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。
  3. Yarn/mesos资源调度器
    Yarn是下一代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的。
    Yarn是下一代 Hadoop 计算平台,Yarn是一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。
    Mesos诞生于UC Berkeley的一个研究项目,现已成为Apache项目,当前有一些公司使用Mesos管理集群资源,比如Twitter。与yarn类似,Mesos是一个资源统一管理和调度的平台,同样支持比如MR、steaming等多种运算框架。

协调组件

  1. Zookeeper分布式应用协调服务
    Zookeeper就是一个动物管理员(hadoop很多项目都是用动物命名的)
    Zookeeper是一个分布式服务框架,主要用来解决分布式应用中经常用到的数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
    Zookeeper维护一个类似文件系统的数据结构,每个子目录项都被称作znode(目录节点),它们可以存储数据。Zookeeper存储的数据量不大,主要用来保存元数据。
  2. Core/Common为其他子项目提供支持

计算模型

计算模型都是运行在yarn的,MapReduce也是一种计算模型

  1. Tez(Dag有向无环图计算模型)
  2. Spark(内存Dag计算模型)
  3. Giraph(图计算模型)
  4. GraphX(图计算模型)
  5. Streaming(流计算模型)

管理工具

  1. ranger安全管理工具
  2. falcon数据周期管理工具
  3. Ambari安装部署配置管理工具
    Ambari可以用来快速搭建hadoop生态圈大数据组件

数据存储

  1. Hlive数据仓库
  2. HBase分布式NoSQL数据库
  3. Cassanda混合型NoSQL
  4. redis分布式NoSQL缓存数据库

数据处理

  1. Pig数据分析平台
  2. Mahout数据挖掘算法库
  3. Hama大规模并行计算框架
  4. ChuKWa数据收集系统
  5. Avro数据序列化系统
  6. MLib机器学习库

其他组件

  1. Sqoop数据同步工具
  2. Flume日志收集工具
  3. Oozie工作流调度器
  4. Tachyon分布式内存文件系统
  5. Phoenix(HBase的sql接口)
  6. knox(hadoop的安全网关)
文章作者: rack-leen
文章链接: http://yoursite.com/2019/08/07/%E5%A4%A7%E6%95%B0%E6%8D%AE/hadoop%E7%94%9F%E6%80%81%E5%9C%88/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 rack-leen's blog
打赏
  • 微信
  • 支付宝

评论