简介
- 三大组件:HDFS, MR, YARN,相互不关联
- HDFS:存储大数据文件,可以分成多份存储,采用类似bash的命令方式管理HDFS
- MR:用于离线数据计算,主要过程:输入->默认分割按行->进行自定义Map操作->shiffe分割->自定义reduce合并->输出
- YARN:调度框架,根据配置进行job和资源的调度操作
- 物理架构/逻辑架构
- Master / Salve
- NameNode / DataNode(N)
- 运行模式
- 单机模式
- 伪分布式
- 分布式
配置文件
核心配置文件
1
core-site.xml
HDFS配置文件
1
hdfs-site.xml
MR配置文件
1
mapred-site.xml
YARN调度配置文件
1
yarn-site.xml