hadoop映射中调试失败的洗牌减少

hadoop映射中调试失败的洗牌减少,hadoop,mapreduce,qubole,Hadoop,Mapreduce,Qubole,我看到随着输入文件大小的增加,失败的无序排列增加,作业完成时间非线性增加 例如 我还看到平均洗牌时间增加了10倍 例如 有人能告诉我调试这个的方向吗?只要您确定算法正确,自动硬盘卷分区或碎片问题可能会在75Gb阈值之后的某个地方发生,因为您可能正在使用相同的文件系统缓存结果 75GB took 1h 86GB took 5h 75GB 4min 85GB 41min

我看到随着输入文件大小的增加,失败的无序排列增加,作业完成时间非线性增加

例如

我还看到平均洗牌时间增加了10倍

例如


有人能告诉我调试这个的方向吗?

只要您确定算法正确,自动硬盘卷分区或碎片问题可能会在75Gb阈值之后的某个地方发生,因为您可能正在使用相同的文件系统缓存结果

75GB took 1h
86GB took 5h
75GB 4min
85GB 41min