Hadoop 一

简介

  1. 三大组件:HDFS, MR, YARN,相互不关联
    • HDFS:存储大数据文件,可以分成多份存储,采用类似bash的命令方式管理HDFS
    • MR:用于离线数据计算,主要过程:输入->默认分割按行->进行自定义Map操作->shiffe分割->自定义reduce合并->输出
    • YARN:调度框架,根据配置进行job和资源的调度操作
  2. 物理架构/逻辑架构
    • Master / Salve
    • NameNode / DataNode(N)
  3. 运行模式
    • 单机模式
    • 伪分布式
    • 分布式
  4. 配置文件

    • 核心配置文件

      1
      core-site.xml
    • HDFS配置文件

      1
      hdfs-site.xml
    • MR配置文件

      1
      mapred-site.xml
    • YARN调度配置文件

      1
      yarn-site.xml
-------------本文结束感谢您的阅读-------------
Dean Wang wechat