Apache spark Spark 1.6即使在增加shuflle分区后仍面临过大的帧错误

Apache spark Spark 1.6即使在增加shuflle分区后仍面临过大的帧错误,apache-spark,Apache Spark,我面临着这个问题。即使在增加shuflle分区后,我也无法解决太大的帧错误 总记录:1.5亿 有几件事你可以试试 查看故障节点上的日志文件。您要查找文本“Killing container”。如果您看到文本“超出物理内存限制运行”,增加memoryOverhead应该可以解决问题 org.apache.spark.shuffle.FetchFailedException可能由于检索随机分区超时而发生。请尝试以下配置 2.1。火花减速器maxReqsInFlight=1;--一次只能拉一个文件以

我面临着这个问题。即使在增加shuflle分区后,我也无法解决太大的帧错误

总记录:1.5亿


有几件事你可以试试

  • 查看故障节点上的日志文件。您要查找文本“Killing container”。如果您看到文本“超出物理内存限制运行”,增加memoryOverhead应该可以解决问题

  • org.apache.spark.shuffle.FetchFailedException可能由于检索随机分区超时而发生。请尝试以下配置

  • 2.1。火花减速器maxReqsInFlight=1;--一次只能拉一个文件以使用全部网络带宽

    2.2 spark.shuffle.io.retryWait=60s;——在重试之前,增加检索洗牌分区时的等待时间。对于较大的文件,需要更长的时间

    2.3 spark.shuffle.io.maxRetries=10


    2.4将spark.network.timeout设置为更大的值,如800。默认120秒将导致很多执行器在重载时超时

    请指定数据大小和Spark executor内存配置。executor memory-40G数据大小我不知道,因为有5个表连接来生成另一个表。请告诉我如何查找数据大小HI Dassum,你能告诉我我们应该保留多少内存来避免这个问题吗,我保留了900个随机分区(尝试增加到1800个)还有其他方法吗?是的,我发现了第二个错误…我已经保留了spark.network.timeout=100000…我必须提供多少随机分区?我无法提供固定值。这些是您需要尝试的不同配置。嗨,dassum My configuration command-->--spark shell--驱动程序内存30G--executor内存50G--num executors=35--executor cores=6--conf spark.port.maxRetries=10--conf spark.network.timeout=10000000--conf spark.executor.heartbeatInterval=250000--confspark.Thread.executor.memoryOverhead=8192--conf spark.driver.maxResultSize=30000M--conf spark.buffer.pageSize=2M--conf spark.sql.shuffle.partitions=800尝试使用spark.reducer.maxReqsInFlight=1,spark.shuffle.io.retryWait=300s,spark.shuffle.io.maxRetries=10也尝试减少随机分区。另外,请让我们知道数据大小和硬件配置