Apache spark Databricks Spark:java.lang.OutOfMemoryError:超出GC开销限制i_Apache Spark_Databricks_Azure Databricks

Apache spark Databricks Spark:java.lang.OutOfMemoryError:超出GC开销限制i

apache-spark

Apache spark Databricks Spark:java.lang.OutOfMemoryError:超出GC开销限制i,apache-spark,databricks,azure-databricks,Apache Spark,Databricks,Azure Databricks,我正在Databricks集群中执行Spark作业。我正在通过Azure Data Factory管道触发作业，作业每隔15分钟执行一次，因此在成功执行三到四次之后，就会失败并抛出异常“java.lang.OutOfMemoryError:超出GC开销限制”。虽然对于上述问题有很多答案，但在大多数情况下，他们的作业都没有运行，但在我的情况下，在成功执行以前的一些作业后，作业就会失败。我的数据大小仅小于20 MB 我的群集配置是：所以我的问题是我应该在服务器配置中做什么更改。如果问题来自于

我正在Databricks集群中执行Spark作业。我正在通过Azure Data Factory管道触发作业，作业每隔15分钟执行一次，因此在

成功执行三到四次之后，

就会失败并抛出异常

“java.lang.OutOfMemoryError:超出GC开销限制”

。虽然对于上述问题有很多答案，但在大多数情况下，他们的作业都没有运行，但在我的情况下，在成功执行以前的一些作业后，作业就会失败。我的数据大小仅小于20 MB

我的群集配置是：

所以我的问题是我应该在服务器配置中做什么更改。如果问题来自于我的代码，那么为什么大部分时间它都成功了。请给我建议解决方案。

这很可能与执行器内存过低有关。不确定当前设置是什么，如果是默认设置，则此特定数据块分布中的默认值是什么。即使它通过了，但由于内存不足，会发生很多GCs，因此它会时不时地失败。在spark配置下，请提供spark.executor.memory以及与每个执行器的执行器数和内核数相关的一些其他参数。在spark submit中，配置将作为spark submit--conf spark.executor.memory=1g提供。

您可以尝试增加驱动程序节点的内存。

任何否决投票的人都应该提到原因。我正在寻找的是确切的解决方案，而不是一般的答案。解决方案是spark.executor.memory=1g，但很抱歉，我不知道如何从启动应用程序的方式做到这一点。可能您可以在advanced Options（高级选项）下提供的spark config（火花配置）部分中添加。您需要更多关于如何执行此操作的说明。请在群集配置页面中增加驱动程序节点的计算能力。例如，上面的快照显示8个具有16GB内存的内核-请尝试选择具有更高内存的不同配置，然后参见