使用纱线和hadoop 2.2.0的各种作业统计_Hadoop

使用纱线和hadoop 2.2.0的各种作业统计

hadoop

使用纱线和hadoop 2.2.0的各种作业统计,hadoop,Hadoop,我最近使用新的Thread框架安装了一个2节点hadoop 2.2.0 作业运行时，所有的看起来都是dine，但我想知道是否有办法真正验证两个节点都在运行作业，而不仅仅是一个节点（我似乎在hadoop jar…commands的输出中找不到关于这一问题的任何相关信息，其中显示了mapreduce完成统计信息）我还想知道如何验证两个节点都在存储DFS的信息。我运行了df，似乎只有一个节点在实际存储信息（我使用了hadoop DFS-put大文本文件）因此，简言之：如何判断哪些节点实际运行了特

我最近使用新的Thread框架安装了一个2节点hadoop 2.2.0

作业运行时，所有的看起来都是dine，但我想知道是否有办法真正验证两个节点都在运行作业，而不仅仅是一个节点（我似乎在
hadoop jar…
commands的输出中找不到关于这一问题的任何相关信息，其中显示了mapreduce完成统计信息）
我还想知道如何验证两个节点都在存储DFS的信息。我运行了
df
，似乎只有一个节点在实际存储信息（我使用了
hadoop DFS-put
大文本文件）
因此，简言之：

如何判断哪些节点实际运行了特定作业

我如何知道哪些datanodes实际上保存了哪些信息（在阅读了一些教程之后，我使用replication=2确保两个节点共享我在DFS上放置的信息负载）
我真的很难用谷歌搜索到这一点，因为Hadoop并不像我习惯用谷歌搜索的其他主题那样被涵盖，而且我最终遇到的大多数线程都没有答案或与之无关
谢谢

您需要检查Job Tracker Web UI（端口50030）-从这里您可以列出活动任务跟踪器的数量以及它们都已运行（以及已完成、失败+出错）的映射任务的数量

可以使用命令行工具列出块及其位置：

hadoop fsck-文件-块-位置
有关fsck cmd的更多信息，请参阅此链接：

跟进：我现在可以看到只有从机在运行map reduce，而主机没有。我使用的主机更强大，我希望它也能执行mapreduce操作。你知道这其中的常见原因吗？或者可以概括一下“谁做什么”的决定？是否在主节点上运行“nodemanager”？运行“jps”并确认。