Hadoop 在多节点中运行Pig脚本_Hadoop_Apache Pig

Hadoop 在多节点中运行Pig脚本

hadoop apache-pig

Hadoop 在多节点中运行Pig脚本,hadoop,apache-pig,Hadoop,Apache Pig,我已经配置了一个具有三个节点的Hadoop集群。所有节点都工作正常且连接良好我已经上传了28 GB的HDFS文件，并为处理该文件执行了Pig脚本。当我执行脚本时。它仅在单个节点中运行你能给我一些建议并解释一下为什么它只在单节点上运行吗？配置中是否缺少某些内容我正在使用Hadoop 2.2.0和Pig 0.12版本。您是否尝试在脚本中设置并行？您有三个节点，因此可以尝试设置为并行3。与以下任何一个操作员一起使用它是有意义的：团体共群加入极限命令明显的语法示例：x×y组并行3

我已经配置了一个具有三个节点的Hadoop集群。所有节点都工作正常且连接良好

我已经上传了28 GB的HDFS文件，并为处理该文件执行了Pig脚本。当我执行脚本时。它仅在单个节点中运行

你能给我一些建议并解释一下为什么它只在单节点上运行吗？配置中是否缺少某些内容

我正在使用Hadoop 2.2.0和Pig 0.12版本。

您是否尝试在脚本中设置

并行？您有三个节点，因此可以尝试设置为并行3。与以下任何一个操作员一起使用它是有意义的：

团体
共群
加入
极限
命令
明显的

语法示例：x×y组并行3
你的文件是什么格式的？确保它是可拆分的
还要检查群集是否正常工作并正确设置。例如，检查任务跟踪器（纱线中的节点管理器）是否出现故障，确保所有节点上的从节点
和主节点
文件设置正确（从节点
列出所有从节点，主节点
列出主节点）。
感谢您的快速响应。我没有使用并行运算符。我的文件是逗号分隔的。所以是一个普通的CSV文本文件吗？是的，我已经从MySQL中导出并存储在HDFS中。在此之前，我已经将其转换为Unix格式。还要检查您的群集是否正常工作并正确设置。例如，检查任务跟踪器是否未出现故障，确保在所有节点上正确设置了slaves
和master
文件。我在master和salves中执行了JPS：主进程是13540 ResourceManager 17422 JobHistoryServer 10180 JPS 5711 RunJar 12860 NameNode 5804 MRAppMaster 13070 DataNode 6594 YarnChild 13758 NodeManager 23489 RunJar 13333 SecondaryNameNode和Slave28541 Jps 11298数据节点11515节点管理器