Hadoop 在多节点中运行Pig脚本

Hadoop 在多节点中运行Pig脚本,hadoop,apache-pig,Hadoop,Apache Pig,我已经配置了一个具有三个节点的Hadoop集群。所有节点都工作正常且连接良好 我已经上传了28 GB的HDFS文件,并为处理该文件执行了Pig脚本。当我执行脚本时。它仅在单个节点中运行 你能给我一些建议并解释一下为什么它只在单节点上运行吗?配置中是否缺少某些内容 我正在使用Hadoop 2.2.0和Pig 0.12版本。您是否尝试在脚本中设置并行?您有三个节点,因此可以尝试设置为并行3。与以下任何一个操作员一起使用它是有意义的: 团体 共群 加入 极限 命令 明显的 语法示例:x×y组并行3

我已经配置了一个具有三个节点的Hadoop集群。所有节点都工作正常且连接良好

我已经上传了28 GB的HDFS文件,并为处理该文件执行了Pig脚本。当我执行脚本时。它仅在单个节点中运行

你能给我一些建议并解释一下为什么它只在单节点上运行吗?配置中是否缺少某些内容


我正在使用Hadoop 2.2.0和Pig 0.12版本。

您是否尝试在脚本中设置
并行?您有三个节点,因此可以尝试设置为并行3。与以下任何一个操作员一起使用它是有意义的:

  • 团体
  • 共群
  • 加入
  • 极限
  • 命令
  • 明显的
语法示例:
x×y组并行3

你的文件是什么格式的?确保它是可拆分的


还要检查群集是否正常工作并正确设置。例如,检查任务跟踪器(纱线中的节点管理器)是否出现故障,确保所有节点上的
从节点
主节点
文件设置正确(
从节点
列出所有从节点,
主节点
列出主节点)。

感谢您的快速响应。我没有使用并行运算符。我的文件是逗号分隔的。所以是一个普通的CSV文本文件吗?是的,我已经从MySQL中导出并存储在HDFS中。在此之前,我已经将其转换为Unix格式。还要检查您的群集是否正常工作并正确设置。例如,检查任务跟踪器是否未出现故障,确保在所有节点上正确设置了
slaves
master
文件。我在master和salves中执行了JPS:主进程是13540 ResourceManager 17422 JobHistoryServer 10180 JPS 5711 RunJar 12860 NameNode 5804 MRAppMaster 13070 DataNode 6594 YarnChild 13758 NodeManager 23489 RunJar 13333 SecondaryNameNode和Slave28541 Jps 11298数据节点11515节点管理器