hadoop映射中调试失败的洗牌减少_Hadoop_Mapreduce_Qubole

hadoop映射中调试失败的洗牌减少

hadoop mapreduce

hadoop映射中调试失败的洗牌减少,hadoop,mapreduce,qubole,Hadoop,Mapreduce,Qubole,我看到随着输入文件大小的增加，失败的无序排列增加，作业完成时间非线性增加例如我还看到平均洗牌时间增加了10倍例如有人能告诉我调试这个的方向吗？只要您确定算法正确，自动硬盘卷分区或碎片问题可能会在75Gb阈值之后的某个地方发生，因为您可能正在使用相同的文件系统缓存结果 75GB took 1h 86GB took 5h 75GB 4min 85GB 41min

我看到随着输入文件大小的增加，失败的无序排列增加，作业完成时间非线性增加

例如

我还看到平均洗牌时间增加了10倍

例如

有人能告诉我调试这个的方向吗？

只要您确定算法正确，自动硬盘卷分区或碎片问题可能会在75Gb阈值之后的某个地方发生，因为您可能正在使用相同的文件系统缓存结果

75GB took 1h
86GB took 5h

75GB 4min
85GB 41min