Python 海量数据处理之 _Hadoop（二）概念和原理

1. 说明

Hadoop 是个分布式的架构，它将海量数据处理工作分配到集群中的多个机器上运行。前篇介绍了 Hadoop 的安装，在安装过程中会产生一些疑问，比如 NameNode 是什么东西？本篇就以问题&解答的方式介绍 Hadoop 的相关概念及其原理。

2. NameNode，DataNode，以及 Secondary NameNode

把 Hadoop 分为 HDFS 和 MapReduce。HDFS 为数据提供了存储，MapReduce 为数据提供了计算。

NameNode，DataNode 以及 Secondary NameNode 都是属于存储部分，NameNode 主要负责管理元信息，如文件名，目录结构，属性，数据块存储位置等等。DataNode 负责数据块的具体存取。SecondaryNameNode 是 NameNode 的辅助工具，有两个作用，一是镜像备份，二是日志与镜像的定期合并，注意：它并不是 NameNode 的备份。

3. ResourceManager 与 NodeManager

ResourceManager 和 NodeManager 属于计算部分，ResourceManager 负责集群中所有算力的统一管理和分配，NodeManager 是每台机器上的代理，负责容器管理，并监控它们的资源使用情况，以及向 ResourceManager 提供资源使用报告。

4. MapReduce 与 YARN

Hadoop 将 MapReduce 框架升级到 YARN（也叫 MapRecudeV2）。原来 MapReduce 分为 JobTracker 和 NodeTracker，分别用于分配集群中所有任务和管理单机任务；而 YARN 改为 ResourceManager 和 NodeManager，也分别针对主按和单机，但 YARN 对每个应用都建立了 ApplicationMaster，它可以分布在 ResourceManager 以外的机器上，从而缓解了主控的压力。

5. Master 与 slave

Master 和 salve 指的是集群中各台主机主控或从属的特性，即它们在 hadoop 中扮演的角色（每台主机就好比一个人），一个集群中只有一个 master（领导小组），它可以分布在一台或多台机器上（好比主管存储的领导和主管计算的领导可以同一个人，也可以是不同的人），

Salve（群众）可以有很多，slave 机器上主要部署 NodeManager 和 DataNode（作为群众干具体活，一个群众可以干一样或多样工作，全部工作由群众分担），而在 Master 上部署 NameNode 和 ResourceManager（作为领导分配任务），master 如有多余算力，也可部署 NodeManager 和 DataNode（领导也可以干点具体活）。

如果只有一台机器，可以把所有功能都让它实现，这就是伪分布式，如果机器多负荷大，可以把每种工作分配给专门的机器。需要注意的是管理的角色 NameNode 和 ResourceManager 只能各有一个。就好像一样事儿好几个领导同时管就乱了。

6. 集群中多台服务器如何配置

无论是 master 还是 slave 都需要安装 JDK 和 Hadoop，以及配置 ssh 及环境变量，但配置文件和启动方式不同；并且只在 master 上做格式化。

7. 程序如何读取数据

分布式文件系统，算力和存储都分布在多个机器上。NameNode 为数据存储提供统一的接口以便读写，具体在 core-site.xml 中设置。

在程序层面，通过 Hadoop 的数据流 (streaming) 进行流式处理，它有点像 linux 的管道机制，程序从标准输入 stdin 读入，写入标准输出 stdout（在处理过程中请尽量保持流式，不要一次 load 太多到内存）。相对来说它更适合处理像字符串一样的流式数据，而非大规律数据的统计。除了直接读数据流，Python 还提供封装工具，如 mrjob，dumbo，hadoopy，pydoop 等等，使读写更加方便。

8. 程序如何切分运算量

Map 可以开一个到多个，reduce 也可以开一个到多个，具体根据业务逻辑分配。

9. 数据挖掘可否分布计算

Mahout 是 Hadoop 家族中的成员，是基于一个 Hadoop 的机器学习和数据挖掘的分布式计算框架。

10. Hadoop 与 Spark

Hadoop 是分布式数据处理的低层次抽象，通用，强壮，且保守，它使用 HDFS 存储，支持复杂的大规模数据。

Spark 是一个新兴的大数据处理的引擎，是分布式大数据处理的高层次抽象。提供了除 map 和 reduce 之外更多的运算符，这些操作是通过一个称作弹性分布式数据集 (resilient distributed datasets, RDDs) 的分布式数据框架进行的。它主要使用内存存储，用于快速处理。

Hadoop 的 YARN 还可与 Spark 结合使用。

11. Hadoop 与 Zookeeper

在集群的管理中 Zookeeper 负责分布式系统的协调工作。不仅适用于 Hadoop 集群，在其他的集群中也常被用到，比如此前介绍过的实现矿机集群的 Zookeeper&Kafka。Zookeeper 主要解决处理分布式应用的“部分失败”问题（比如某个关链节点宕机了），使集群更加稳定地工作。