Hadoop DataNode和TaskTracker在不同的机器上?
我是Hadoop的新手,我对Hadoop框架有以下问题。有人能给我介绍一下吗Hadoop DataNode和TaskTracker在不同的机器上?,hadoop,Hadoop,我是Hadoop的新手,我对Hadoop框架有以下问题。有人能给我介绍一下吗 DataNode和TaskTracker是否物理上位于生产环境中的不同机器上 Hadoop何时将文件拆分为块?当您将文件从本地文件系统复制到HDFS时,是否会发生这种情况 简短回答 大部分时间,但不一定 是 长话短说 1) 在集群上安装Hadoop将有两种主要类型的节点: 主节点 数据节点 主节点通常至少运行: CLDB 动物园管理员 求职者 数据节点通常至少运行: 任务跟踪器 。但是,对于DataNode
- 主节点
- 数据节点
- CLDB
- 动物园管理员
- 求职者
- 任务跟踪器
DataNode
服务,建议在相同的节点上运行DataNode
和TaskTracker
,以便在数据附近执行操作
对于Hadoop的发行版,通常运行两个服务器角色:
- MapR控制节点
- 动物园管理员*
- CLDB*
- 求职者*
- HBaseMaster
- NFS网关
- 网络服务器
- MapR数据节点
- 任务跟踪器*
- 区域服务器(有时)
- 动物园管理员(有时)
DataNodes
分发和复制块。当您第一次在HDFS中存储数据时,它会将数据分成块,并根据指定的复制因子跨不同的节点存储数据。但是,如果将新的DataNode
s添加到集群中,除非不满足复制系数,否则它将被删除
(感谢@javadba对此的澄清!)简短回答
- 主节点
- 数据节点
- CLDB
- 动物园管理员
- 求职者
- 任务跟踪器
DataNode
服务,建议在相同的节点上运行DataNode
和TaskTracker
,以便在数据附近执行操作
对于Hadoop的发行版,通常运行两个服务器角色:
- MapR控制节点
- 动物园管理员*
- CLDB*
- 求职者*
- HBaseMaster
- NFS网关
- 网络服务器
- MapR数据节点
- 任务跟踪器*
- 区域服务器(有时)
- 动物园管理员(有时)
DataNodes
分发和复制块。当您第一次在HDFS中存储数据时,它会将数据分成块,并根据指定的复制因子跨不同的节点存储数据。但是,如果将新的DataNode
s添加到集群中,除非不满足复制系数,否则它将被删除
(感谢@javadba澄清了这一点!)鉴于TrinitronX已经回答了#1-虽然简短的回答应该是“否”-datanode/task tracker可能位于不同的物理机器上,但并不常见。您最好从“从”机开始,它是datanode加上任务跟踪器 这是对问题第二部分的回答
2) When does Hadoop splits a file into blocks? Does this happen when you copy a file from local filesystem into HDFS?
对。文件在加载到HDFS时被分成块。鉴于TrinitronX已经回答了#1-虽然简短的回答应该是“否”-datanode/task tracker可能位于不同的物理机器上,但这并不常见。您最好从“从”机开始,它是datanode加上任务跟踪器 这是对问题第二部分的回答
2) When does Hadoop splits a file into blocks? Does this happen when you copy a file from local filesystem into HDFS?
对。在加载到HDFS时,文件被分成块
2.简短回答:应为否。Tasktracker和datanode位于同一台机器上,而不是不同的机器上。你的长篇大论的回答通常是好的;但是,有一个细节:在DataNodes或Master节点上运行Zookeeper没有问题。@javadba:没有看到
DataNode
是一个词,所以我想他们的意思是DataNode
作为服务,而不是“数据节点”。我被告知TaskTracker
是在数据节点上运行的服务,因此在我看来,我将TaskTracker
等同于“数据节点”。似乎是说您应该在同一台服务器上运行TaskTracker
和DataNode
。。。我弄错了吗?虽然TaskTracker和DataNode可能不是一对一,但这并不常见。@javadba:Gotcha。为了更准确,编辑了我的答案。将你的“长回答”投票改为#1)。希望我能得到一些注意来回答#2)简短的回答:不应该。Tasktracker和datanode在同一台机器上,而不是不同的机器上。你的长篇大论的回答通常是好的;但是,有一个细节:在DataNodes或Master节点上运行Zookeeper没有问题。@javadba:没有看到DataNode
是一个词,所以我想他们的意思是DataNode
作为服务,而不是“数据节点”。我被告知TaskTracker
是在数据节点上运行的服务,因此在我看来,我将TaskTracker
等同于“数据节点”。似乎是说您应该在同一台服务器上运行TaskTracker
和DataNode
。。。我错了吗?虽然TaskTracker和DataNode可能不是一个