Hadoop DataNode和TaskTracker在不同的机器上？_Hadoop

Hadoop DataNode和TaskTracker在不同的机器上？

hadoop

Hadoop DataNode和TaskTracker在不同的机器上？,hadoop,Hadoop,我是Hadoop的新手，我对Hadoop框架有以下问题。有人能给我介绍一下吗 DataNode和TaskTracker是否物理上位于生产环境中的不同机器上 Hadoop何时将文件拆分为块？当您将文件从本地文件系统复制到HDFS时，是否会发生这种情况简短回答大部分时间，但不一定是长话短说 1) 在集群上安装Hadoop将有两种主要类型的节点：主节点数据节点主节点通常至少运行： CLDB 动物园管理员求职者数据节点通常至少运行：任务跟踪器。但是，对于DataNode

我是Hadoop的新手，我对Hadoop框架有以下问题。有人能给我介绍一下吗

DataNode和TaskTracker是否物理上位于生产环境中的不同机器上

Hadoop何时将文件拆分为块？当您将文件从本地文件系统复制到HDFS时，是否会发生这种情况

简短回答

大部分时间，但不一定

是

长话短说 1) 在集群上安装Hadoop将有两种主要类型的节点：

主节点
数据节点

主节点通常至少运行：

CLDB
动物园管理员
求职者

数据节点通常至少运行：

任务跟踪器

。但是，对于

DataNode

服务，建议在相同的节点上运行

DataNode

和

TaskTracker

，以便在数据附近执行操作

对于Hadoop的发行版，通常运行两个服务器角色：

MapR控制节点
- 动物园管理员*
- CLDB*
- 求职者*
- HBaseMaster
- NFS网关
- 网络服务器
MapR数据节点
- 任务跟踪器*
- 区域服务器（有时）
- 动物园管理员（有时）

2) 虽然大多数文件系统将数据存储在块中，但会跨

DataNodes

分发和复制块。当您第一次在HDFS中存储数据时，它会将数据分成块，并根据指定的复制因子跨不同的节点存储数据。但是，如果将新的

DataNode

s添加到集群中，除非不满足复制系数，否则它将被删除

（感谢@javadba对此的澄清！）

简短回答

大部分时间，但不一定

是

长话短说 1) 在集群上安装Hadoop将有两种主要类型的节点：

主节点
数据节点

主节点通常至少运行：

CLDB
动物园管理员
求职者

数据节点通常至少运行：

任务跟踪器

。但是，对于

DataNode

服务，建议在相同的节点上运行

DataNode

和

TaskTracker

，以便在数据附近执行操作

对于Hadoop的发行版，通常运行两个服务器角色：

MapR控制节点
- 动物园管理员*
- CLDB*
- 求职者*
- HBaseMaster
- NFS网关
- 网络服务器
MapR数据节点
- 任务跟踪器*
- 区域服务器（有时）
- 动物园管理员（有时）

2) 虽然大多数文件系统将数据存储在块中，但会跨

DataNodes

分发和复制块。当您第一次在HDFS中存储数据时，它会将数据分成块，并根据指定的复制因子跨不同的节点存储数据。但是，如果将新的

DataNode

s添加到集群中，除非不满足复制系数，否则它将被删除

（感谢@javadba澄清了这一点！）

鉴于TrinitronX已经回答了#1-虽然简短的回答应该是“否”-datanode/task tracker可能位于不同的物理机器上，但并不常见。您最好从“从”机开始，它是datanode加上任务跟踪器

这是对问题第二部分的回答

2) When does Hadoop splits a file into blocks? Does this happen when you copy a file from local filesystem into HDFS?

对。文件在加载到HDFS时被分成块。

鉴于TrinitronX已经回答了#1-虽然简短的回答应该是“否”-datanode/task tracker可能位于不同的物理机器上，但这并不常见。您最好从“从”机开始，它是datanode加上任务跟踪器

这是对问题第二部分的回答

2) When does Hadoop splits a file into blocks? Does this happen when you copy a file from local filesystem into HDFS?

对。在加载到HDFS时，文件被分成块

数据节点和作业跟踪器可以在不同的机器上运行

在Hadoop上的所有操作中，Hadoop始终将文件存储为块

提及

一,

二,

数据节点和作业跟踪器可以在不同的机器上运行

在Hadoop上的所有操作中，Hadoop始终将文件存储为块

提及

一,

简短回答：应为否。Tasktracker和datanode位于同一台机器上，而不是不同的机器上。你的长篇大论的回答通常是好的；但是，有一个细节：在DataNodes或Master节点上运行Zookeeper没有问题。@javadba:没有看到

DataNode

是一个词，所以我想他们的意思是

DataNode

作为服务，而不是“数据节点”。我被告知

TaskTracker

是在数据节点上运行的服务，因此在我看来，我将

TaskTracker

等同于“数据节点”。似乎是说您应该在同一台服务器上运行

TaskTracker

和

DataNode

。。。我弄错了吗？虽然TaskTracker和DataNode可能不是一对一，但这并不常见。@javadba:Gotcha。为了更准确，编辑了我的答案。将你的“长回答”投票改为#1）。希望我能得到一些注意来回答#2）简短的回答：不应该。Tasktracker和datanode在同一台机器上，而不是不同的机器上。你的长篇大论的回答通常是好的；但是，有一个细节：在DataNodes或Master节点上运行Zookeeper没有问题。@javadba:没有看到

DataNode

是一个词，所以我想他们的意思是

DataNode

作为服务，而不是“数据节点”。我被告知

TaskTracker

是在数据节点上运行的服务，因此在我看来，我将

TaskTracker

等同于“数据节点”。似乎是说您应该在同一台服务器上运行

TaskTracker

和

DataNode

。。。我错了吗？虽然TaskTracker和DataNode可能不是一个