Excel spark驱动程序意外停止,正在重新启动。您的笔记本将自动重新连接
我尝试在Databricks中分析一个500Mb的数据集。这些数据存储在Excel文件中。我做的第一件事是从Maven(最新版本-0.11.1)安装Spark Excel包Excel spark驱动程序意外停止,正在重新启动。您的笔记本将自动重新连接,excel,scala,apache-spark,azure-databricks,Excel,Scala,Apache Spark,Azure Databricks,我尝试在Databricks中分析一个500Mb的数据集。这些数据存储在Excel文件中。我做的第一件事是从Maven(最新版本-0.11.1)安装Spark Excel包com.crealytics.Spark.Excel 以下是集群的参数: 然后,我在Scala笔记本中执行了以下代码: val df_spc = spark.read .format("com.crealytics.spark.excel") .option("useHeader",
com.crealytics.Spark.Excel
以下是集群的参数:
然后,我在Scala笔记本中执行了以下代码:
val df_spc = spark.read
.format("com.crealytics.spark.excel")
.option("useHeader", "true")
.load("dbfs:/FileStore/tables/test.xlsx")
但是我得到了关于Java堆大小的错误,然后我得到了另一个错误“Java.io.IOException:超出了GC开销限制”。然后我再次执行此代码,在运行5分钟后出现另一个错误:
spark驱动程序意外停止,正在重新启动。你的
笔记本将自动重新连接
我不明白为什么会这样。事实上,对于分布式计算来说,数据集非常小,集群大小应该可以处理这些数据。我应该检查什么来解决这个问题?我也遇到了同样的情况,无法处理我的35000记录xlsx文件。 以下是我尝试解决的解决方案:
这个源甚至不是远程分布的。它将本地读取驱动程序上的数据,然后并行化。这是非常低效的,并且会在某个点创建多个数据副本。如果您的数据很小,那么使用Spark也没有任何意义。如果不是,我建议你帮自己一个忙,换一种适合大规模分析的格式。也就是说,调整(和增加)可用内存应该可以做到这一点。