使用纱线和hadoop 2.2.0的各种作业统计

使用纱线和hadoop 2.2.0的各种作业统计,hadoop,Hadoop,我最近使用新的Thread框架安装了一个2节点hadoop 2.2.0 作业运行时,所有的看起来都是dine,但我想知道是否有办法真正验证两个节点都在运行作业,而不仅仅是一个节点(我似乎在hadoop jar…commands的输出中找不到关于这一问题的任何相关信息,其中显示了mapreduce完成统计信息) 我还想知道如何验证两个节点都在存储DFS的信息。我运行了df,似乎只有一个节点在实际存储信息(我使用了hadoop DFS-put大文本文件) 因此,简言之: 如何判断哪些节点实际运行了特

我最近使用新的Thread框架安装了一个2节点hadoop 2.2.0

作业运行时,所有的看起来都是dine,但我想知道是否有办法真正验证两个节点都在运行作业,而不仅仅是一个节点(我似乎在
hadoop jar…
commands的输出中找不到关于这一问题的任何相关信息,其中显示了mapreduce完成统计信息)

我还想知道如何验证两个节点都在存储DFS的信息。我运行了
df
,似乎只有一个节点在实际存储信息(我使用了
hadoop DFS-put
大文本文件)

因此,简言之:

  • 如何判断哪些节点实际运行了特定作业
  • 我如何知道哪些datanodes实际上保存了哪些信息(在阅读了一些教程之后,我使用replication=2确保两个节点共享我在DFS上放置的信息负载)
  • 我真的很难用谷歌搜索到这一点,因为Hadoop并不像我习惯用谷歌搜索的其他主题那样被涵盖,而且我最终遇到的大多数线程都没有答案或与之无关

    谢谢

  • 您需要检查Job Tracker Web UI(端口50030)-从这里您可以列出活动任务跟踪器的数量以及它们都已运行(以及已完成、失败+出错)的映射任务的数量

  • 可以使用命令行工具列出块及其位置:

    hadoop fsck-文件-块-位置

    有关fsck cmd的更多信息,请参阅此链接:


  • 跟进:我现在可以看到只有从机在运行map reduce,而主机没有。我使用的主机更强大,我希望它也能执行mapreduce操作。你知道这其中的常见原因吗?或者可以概括一下“谁做什么”的决定?是否在主节点上运行“nodemanager”?运行“jps”并确认。