Hadoop DataNode和TaskTracker在不同的机器上?

Hadoop DataNode和TaskTracker在不同的机器上?,hadoop,Hadoop,我是Hadoop的新手,我对Hadoop框架有以下问题。有人能给我介绍一下吗 DataNode和TaskTracker是否物理上位于生产环境中的不同机器上 Hadoop何时将文件拆分为块?当您将文件从本地文件系统复制到HDFS时,是否会发生这种情况 简短回答 大部分时间,但不一定 是 长话短说 1) 在集群上安装Hadoop将有两种主要类型的节点: 主节点 数据节点 主节点通常至少运行: CLDB 动物园管理员 求职者 数据节点通常至少运行: 任务跟踪器 。但是,对于DataNode

我是Hadoop的新手,我对Hadoop框架有以下问题。有人能给我介绍一下吗

  • DataNode和TaskTracker是否物理上位于生产环境中的不同机器上
  • Hadoop何时将文件拆分为块?当您将文件从本地文件系统复制到HDFS时,是否会发生这种情况
  • 简短回答
  • 大部分时间,但不一定
  • 长话短说 1) 在集群上安装Hadoop将有两种主要类型的节点:

    • 主节点
    • 数据节点
    主节点通常至少运行:

    • CLDB
    • 动物园管理员
    • 求职者
    数据节点通常至少运行:

    • 任务跟踪器
    。但是,对于
    DataNode
    服务,建议在相同的节点上运行
    DataNode
    TaskTracker
    ,以便在数据附近执行操作

    对于Hadoop的发行版,通常运行两个服务器角色:

    • MapR控制节点
      • 动物园管理员*
      • CLDB*
      • 求职者*
      • HBaseMaster
      • NFS网关
      • 网络服务器
    • MapR数据节点
      • 任务跟踪器*
      • 区域服务器(有时)
      • 动物园管理员(有时)
    2) 虽然大多数文件系统将数据存储在块中,但会跨
    DataNodes
    分发和复制块。当您第一次在HDFS中存储数据时,它会将数据分成块,并根据指定的复制因子跨不同的节点存储数据。但是,如果将新的
    DataNode
    s添加到集群中,除非不满足复制系数,否则它将被删除

    (感谢@javadba对此的澄清!)

    简短回答
  • 大部分时间,但不一定
  • 长话短说 1) 在集群上安装Hadoop将有两种主要类型的节点:

    • 主节点
    • 数据节点
    主节点通常至少运行:

    • CLDB
    • 动物园管理员
    • 求职者
    数据节点通常至少运行:

    • 任务跟踪器
    。但是,对于
    DataNode
    服务,建议在相同的节点上运行
    DataNode
    TaskTracker
    ,以便在数据附近执行操作

    对于Hadoop的发行版,通常运行两个服务器角色:

    • MapR控制节点
      • 动物园管理员*
      • CLDB*
      • 求职者*
      • HBaseMaster
      • NFS网关
      • 网络服务器
    • MapR数据节点
      • 任务跟踪器*
      • 区域服务器(有时)
      • 动物园管理员(有时)
    2) 虽然大多数文件系统将数据存储在块中,但会跨
    DataNodes
    分发和复制块。当您第一次在HDFS中存储数据时,它会将数据分成块,并根据指定的复制因子跨不同的节点存储数据。但是,如果将新的
    DataNode
    s添加到集群中,除非不满足复制系数,否则它将被删除


    (感谢@javadba澄清了这一点!)

    鉴于TrinitronX已经回答了#1-虽然简短的回答应该是“否”-datanode/task tracker可能位于不同的物理机器上,但并不常见。您最好从“从”机开始,它是datanode加上任务跟踪器

    这是对问题第二部分的回答

    2) When does Hadoop splits a file into blocks? Does this happen when you copy a file from local filesystem into HDFS?
    

    对。文件在加载到HDFS时被分成块。

    鉴于TrinitronX已经回答了#1-虽然简短的回答应该是“否”-datanode/task tracker可能位于不同的物理机器上,但这并不常见。您最好从“从”机开始,它是datanode加上任务跟踪器

    这是对问题第二部分的回答

    2) When does Hadoop splits a file into blocks? Does this happen when you copy a file from local filesystem into HDFS?
    
    对。在加载到HDFS时,文件被分成块

  • 数据节点和作业跟踪器可以在不同的机器上运行
  • 在Hadoop上的所有操作中,Hadoop始终将文件存储为块
  • 提及

    一,

    二,

  • 数据节点和作业跟踪器可以在不同的机器上运行
  • 在Hadoop上的所有操作中,Hadoop始终将文件存储为块
  • 提及

    一,


    2.

    简短回答:应为否。Tasktracker和datanode位于同一台机器上,而不是不同的机器上。你的长篇大论的回答通常是好的;但是,有一个细节:在DataNodes或Master节点上运行Zookeeper没有问题。@javadba:没有看到
    DataNode
    是一个词,所以我想他们的意思是
    DataNode
    作为服务,而不是“数据节点”。我被告知
    TaskTracker
    是在数据节点上运行的服务,因此在我看来,我将
    TaskTracker
    等同于“数据节点”。似乎是说您应该在同一台服务器上运行
    TaskTracker
    DataNode
    。。。我弄错了吗?虽然TaskTracker和DataNode可能不是一对一,但这并不常见。@javadba:Gotcha。为了更准确,编辑了我的答案。将你的“长回答”投票改为#1)。希望我能得到一些注意来回答#2)简短的回答:不应该。Tasktracker和datanode在同一台机器上,而不是不同的机器上。你的长篇大论的回答通常是好的;但是,有一个细节:在DataNodes或Master节点上运行Zookeeper没有问题。@javadba:没有看到
    DataNode
    是一个词,所以我想他们的意思是
    DataNode
    作为服务,而不是“数据节点”。我被告知
    TaskTracker
    是在数据节点上运行的服务,因此在我看来,我将
    TaskTracker
    等同于“数据节点”。似乎是说您应该在同一台服务器上运行
    TaskTracker
    DataNode
    。。。我错了吗?虽然TaskTracker和DataNode可能不是一个