Mapreduce Pig在加载大量文件时杀死数据节点_Mapreduce_Hdfs_Apache Pig

Mapreduce Pig在加载大量文件时杀死数据节点

mapreduce apache-pig

Mapreduce Pig在加载大量文件时杀死数据节点,mapreduce,hdfs,apache-pig,Mapreduce,Hdfs,Apache Pig,我有一个脚本，它试图根据日志文件获取用户开始/结束一天的时间。作业总是在完成之前失败，每次似乎都会导致2个数据节点崩溃脚本的加载部分： log = LOAD '$data' USING SieveLoader('@source_host', 'node', 'uid', 'long_timestamp', 'type'); log_map = FILTER log BY $0 IS NOT NULL AND $0#'uid' IS NOT NULL AND $0#'type'=='USER_A

我有一个脚本，它试图根据日志文件获取用户开始/结束一天的时间。作业总是在完成之前失败，每次似乎都会导致2个数据节点崩溃

脚本的加载部分：

log = LOAD '$data' USING SieveLoader('@source_host', 'node', 'uid', 'long_timestamp', 'type');
log_map = FILTER log BY $0 IS NOT NULL AND $0#'uid' IS NOT NULL AND $0#'type'=='USER_AUTH';

我们从大约6500个文件中读取数据，因此似乎产生了那么多映射任务。SieveLoader是一个自定义UDF，它加载一行，将其传递给现有方法，该方法解析该行中的字段并在映射中返回这些字段。传入的参数将映射的大小限制为仅与我们相关的字段

我们的集群有5个数据节点。我们有四核，每个节点允许3个map/reduce插槽，总共15个。任何建议都将不胜感激

“每次击倒2个数据节点”是什么意思？他们重启了吗？这个过程结束了吗？日志怎么说？你在猪身上所做的一切都没有那么疯狂，所以这肯定是一个系统问题。数据节点根据名称节点监控页面下降。由于向这些节点发送了足够多的失败作业，进程最终会关闭。我是Hadoop的新手，不是系统管理员，所以我不知道所有的配置细节。