Hadoop Pig无法处理大文件
我是Hadoop和Pig的新手 我已经安装了具有3个节点的Hadoop集群。我编写了一个Pig脚本,它通常读取数据并在其上执行聚合函数 当我用3600万条记录执行4.8G文件时,pig将在51分钟内给出输出 当我使用7200万条记录执行9.6G文件时,pig脚本崩溃,Hadoop给出以下错误Hadoop Pig无法处理大文件,hadoop,apache-pig,Hadoop,Apache Pig,我是Hadoop和Pig的新手 我已经安装了具有3个节点的Hadoop集群。我编写了一个Pig脚本,它通常读取数据并在其上执行聚合函数 当我用3600万条记录执行4.8G文件时,pig将在51分钟内给出输出 当我使用7200万条记录执行9.6G文件时,pig脚本崩溃,Hadoop给出以下错误 无法从备份的错误中重新创建异常:AttemptID:尝试_1389348682901_0050_m_000005_3信息:容器被应用程序管理员杀死 作业失败,hadoop不返回任何错误消息 我正在使用H
- 无法从备份的错误中重新创建异常:AttemptID:尝试_1389348682901_0050_m_000005_3信息:容器被应用程序管理员杀死
- 作业失败,hadoop不返回任何错误消息
你能在这方面给我一些建议吗?试过猪之后。我搬到了蜂巢 我在使用Pig时观察到: 我在HDFS中上传文件,然后在Pig中加载。猪又在加载那个文件了。我处理了两次文件 对于我的场景,蜂巢适合。我正在HDFS中上载文件,并将该文件加载到配置单元中。这需要几毫秒。因为Hive可以无缝地处理HDFS文件。因此,无需在配置单元表中再次加载数据。这节省了很多时间 这两个组件都很好,适合我的蜂巢
谢谢大家的时间和建议。您的Pig脚本是否可能存在逻辑错误?请参阅,相同的脚本正在成功运行4.8G文件,记录数为3600万条。加载操作脚本期间我观察到的内容失败。节点无法处理/加载9 GB文件。我们能使负载运行并行吗?啊,对,它工作过一次。如果文件是可拆分格式的,那么就不必担心文件太大。可能由于输入文件的一些语法错误而导致加载失败,尽管通常情况下它应该跳过一个损坏的记录。将null放在它的位置。在没有看到日志、数据和脚本的情况下很难猜测。我可以用Hive代替Pig吗。hive将帮助我进行并行处理。我正在对我的数据进行分组、求和和和平均运算。我可以展示我的脚本。你当然可以尝试Hive,但不知道为什么这个问题会出现在Pig中,也无法确定它是否也会出现在Hive中。Pig应适合计算此类骨料。