Hadoop Pig无法处理大文件

Hadoop Pig无法处理大文件,hadoop,apache-pig,Hadoop,Apache Pig,我是Hadoop和Pig的新手 我已经安装了具有3个节点的Hadoop集群。我编写了一个Pig脚本,它通常读取数据并在其上执行聚合函数 当我用3600万条记录执行4.8G文件时,pig将在51分钟内给出输出 当我使用7200万条记录执行9.6G文件时,pig脚本崩溃,Hadoop给出以下错误 无法从备份的错误中重新创建异常:AttemptID:尝试_1389348682901_0050_m_000005_3信息:容器被应用程序管理员杀死 作业失败,hadoop不返回任何错误消息 我正在使用H

我是Hadoop和Pig的新手

我已经安装了具有3个节点的Hadoop集群。我编写了一个Pig脚本,它通常读取数据并在其上执行聚合函数

当我用3600万条记录执行4.8G文件时,pig将在51分钟内给出输出

当我使用7200万条记录执行9.6G文件时,pig脚本崩溃,Hadoop给出以下错误

  • 无法从备份的错误中重新创建异常:AttemptID:尝试_1389348682901_0050_m_000005_3信息:容器被应用程序管理员杀死
  • 作业失败,hadoop不返回任何错误消息
我正在使用Hadoop 2.2.0和Pig 0.12.0

我的节点配置是

主机:2个CPU,2 GB RAM Slave1:2个CPU,2 GB RAM Slave2:1个CPU,2 GB RAM


你能在这方面给我一些建议吗?

试过猪之后。我搬到了蜂巢

我在使用Pig时观察到:

我在HDFS中上传文件,然后在Pig中加载。猪又在加载那个文件了。我处理了两次文件

对于我的场景,蜂巢适合。我正在HDFS中上载文件,并将该文件加载到配置单元中。这需要几毫秒。因为Hive可以无缝地处理HDFS文件。因此,无需在配置单元表中再次加载数据。这节省了很多时间

这两个组件都很好,适合我的蜂巢


谢谢大家的时间和建议。

您的Pig脚本是否可能存在逻辑错误?请参阅,相同的脚本正在成功运行4.8G文件,记录数为3600万条。加载操作脚本期间我观察到的内容失败。节点无法处理/加载9 GB文件。我们能使负载运行并行吗?啊,对,它工作过一次。如果文件是可拆分格式的,那么就不必担心文件太大。可能由于输入文件的一些语法错误而导致加载失败,尽管通常情况下它应该跳过一个损坏的记录。将null放在它的位置。在没有看到日志、数据和脚本的情况下很难猜测。我可以用Hive代替Pig吗。hive将帮助我进行并行处理。我正在对我的数据进行分组、求和和和平均运算。我可以展示我的脚本。你当然可以尝试Hive,但不知道为什么这个问题会出现在Pig中,也无法确定它是否也会出现在Hive中。Pig应适合计算此类骨料。