Hadoop Pig无法处理大文件_Hadoop_Apache Pig

Hadoop Pig无法处理大文件

hadoop apache-pig

Hadoop Pig无法处理大文件,hadoop,apache-pig,Hadoop,Apache Pig,我是Hadoop和Pig的新手我已经安装了具有3个节点的Hadoop集群。我编写了一个Pig脚本，它通常读取数据并在其上执行聚合函数当我用3600万条记录执行4.8G文件时，pig将在51分钟内给出输出当我使用7200万条记录执行9.6G文件时，pig脚本崩溃，Hadoop给出以下错误无法从备份的错误中重新创建异常：AttemptID:尝试_1389348682901_0050_m_000005_3信息：容器被应用程序管理员杀死作业失败，hadoop不返回任何错误消息我正在使用H

我是Hadoop和Pig的新手

我已经安装了具有3个节点的Hadoop集群。我编写了一个Pig脚本，它通常读取数据并在其上执行聚合函数

当我用3600万条记录执行4.8G文件时，pig将在51分钟内给出输出

当我使用7200万条记录执行9.6G文件时，pig脚本崩溃，Hadoop给出以下错误

无法从备份的错误中重新创建异常：AttemptID:尝试_1389348682901_0050_m_000005_3信息：容器被应用程序管理员杀死
作业失败，hadoop不返回任何错误消息

我正在使用Hadoop 2.2.0和Pig 0.12.0

我的节点配置是

主机：2个CPU，2 GB RAM Slave1:2个CPU，2 GB RAM Slave2:1个CPU，2 GB RAM

你能在这方面给我一些建议吗？

试过猪之后。我搬到了蜂巢

我在使用Pig时观察到：

我在HDFS中上传文件，然后在Pig中加载。猪又在加载那个文件了。我处理了两次文件

对于我的场景，蜂巢适合。我正在HDFS中上载文件，并将该文件加载到配置单元中。这需要几毫秒。因为Hive可以无缝地处理HDFS文件。因此，无需在配置单元表中再次加载数据。这节省了很多时间

这两个组件都很好，适合我的蜂巢

谢谢大家的时间和建议。

您的Pig脚本是否可能存在逻辑错误？请参阅，相同的脚本正在成功运行4.8G文件，记录数为3600万条。加载操作脚本期间我观察到的内容失败。节点无法处理/加载9 GB文件。我们能使负载运行并行吗？啊，对，它工作过一次。如果文件是可拆分格式的，那么就不必担心文件太大。可能由于输入文件的一些语法错误而导致加载失败，尽管通常情况下它应该跳过一个损坏的记录。将null放在它的位置。在没有看到日志、数据和脚本的情况下很难猜测。我可以用Hive代替Pig吗。hive将帮助我进行并行处理。我正在对我的数据进行分组、求和和和平均运算。我可以展示我的脚本。你当然可以尝试Hive，但不知道为什么这个问题会出现在Pig中，也无法确定它是否也会出现在Hive中。Pig应适合计算此类骨料。