Apache spark 使用Apache超集或Redash的Spark Thrift Server中的NullPointerException
在将诸如Redash或Superset之类的BI工具连接到Spark Thriftserver(两种工具都使用PyHive)之后,我得到了一个NullPointerException。ApacheZeppelin可以很好地处理使用STS的查询,我永远无法重现那里的错误(Zeppelin使用org.Apache.hive.jdbc.HiveDriver) 这会将STS发送到只有重新启动才能将其恢复的状态。来自所有客户机的查询都将失败(齐柏林飞艇、beeline、Redash、Superset)。这似乎主要发生在模式自动获取时(这不太有效,DB名称获取正确,表名称错误)。在浏览PyHive代码时,我遇到了PyHive STS之间的一些不兼容(如和)。Redash/Superset和STS之间的连接工作正常,我可以进行查询,直到Thriftserver进入断开状态 我理解为什么模式刷新不起作用(也许可以解决这个问题),但我不理解为什么Thriftserver使用NullPointerException进入一个不可恢复、中断的状态 我的设置:Apache spark 使用Apache超集或Redash的Spark Thrift Server中的NullPointerException,apache-spark,apache-superset,pyhive,spark-thriftserver,Apache Spark,Apache Superset,Pyhive,Spark Thriftserver,在将诸如Redash或Superset之类的BI工具连接到Spark Thriftserver(两种工具都使用PyHive)之后,我得到了一个NullPointerException。ApacheZeppelin可以很好地处理使用STS的查询,我永远无法重现那里的错误(Zeppelin使用org.Apache.hive.jdbc.HiveDriver) 这会将STS发送到只有重新启动才能将其恢复的状态。来自所有客户机的查询都将失败(齐柏林飞艇、beeline、Redash、Superset)。这
- 库伯内特斯
- 数据格式为Delta的Delta Lake
- 蜂巢元存储
- 启动Spark Thriftserver的Spark群集:
(我还尝试了start-Thriftserver.sh--执行器内核总数3--驱动程序内存3G--执行器内存1536M--hiveconf hive.server2.thrift.port 10000--hiveconf hive.server2.thrift.max.worker.threads 2000--hiveconf hive.server2.thrift.bind.host我的主机
,但没有任何影响。)spark.sql.thriftServer.incrementalCollect=false
- 连接到STS的Redash/Apache超集
DB engine Error
hive error: ('Query error', 'Error running query: java.lang.NullPointerException')