无法创建Extract-Tableau和Spark SQL

无法创建Extract-Tableau和Spark SQL,extract,tableau-api,pyspark-sql,databricks,Extract,Tableau Api,Pyspark Sql,Databricks,我试图从Spark SQL中提取信息。创建提取时显示以下错误消息 [Simba][Hardy](35)服务器错误:错误代码:“0”错误消息:“org.apache.spark.sparkeexception:作业因阶段失败而中止:906个任务(4.0 GB)的序列化结果的总大小大于spark.driver.maxResultSize(4.0 GB)” 一个快速修复方法就是在执行上下文中更改设置 spark.sql(“set spark.driver.maxResultSize=8G”)在spar

我试图从Spark SQL中提取信息。创建提取时显示以下错误消息

[Simba][Hardy](35)服务器错误:错误代码:“0”错误消息:“org.apache.spark.sparkeexception:作业因阶段失败而中止:906个任务(4.0 GB)的序列化结果的总大小大于spark.driver.maxResultSize(4.0 GB)”


一个快速修复方法就是在执行上下文中更改设置


spark.sql(“set spark.driver.maxResultSize=8G”)

在spark sql Thrift Server上并不完全信服,提取所有事实有点尴尬。Tableau使用收集给司机的结果,否则它怎么能用Spark获得这些结果呢

然而:

  • 在相关spark-thrift-sparkconf.conf文件中设置spark.driver.maxResultSize 0将意味着没有限制(驱动程序节点上的物理限制除外)
  • 在相关spark-thrift-sparkconf.conf文件中设置spark.driver.maxResultSize 8G或更高。注意:并非驱动程序上的所有内存都可以使用
  • 或者,使用Impala Connection for Tableau假设一个蜂巢黑斑羚源,然后减少此类问题
同时,并发用户的数量也是一个问题。因此,最后一点


至少可以说很有趣。

spark.driver.maxResultSize 0


这是可以放入高级群集设置中的设置。这将解决您的4 GB问题。

还需要帮助吗?因此不允许您修改查询或添加其他查询?如果他们担心安全性,您可以添加字符串变量,然后分配字符串“set spark.driver.maxResultSize=8G”,并将变量添加到查询中。也许让摘录所有者知道这一点,他们可以修改查询。假设使用Spark Thrift Server,您只能执行SQL语句,Big Mike。