在PySpark中有没有一种方法可以使用黑斑羚而不是蜂巢?

在PySpark中有没有一种方法可以使用黑斑羚而不是蜂巢?,pyspark,hive,impala,hue,Pyspark,Hive,Impala,Hue,我有一些问题在黑斑羚身上有效,但在蜂巢里却不行。我正在创建一个简单的PySpark文件,例如: from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, HiveContext sconf = SparkConf() sc = SparkContext.getOrCreate(conf=sconf) sqlContext = HiveContext(sc) sqlContext.sql('us

我有一些问题在黑斑羚身上有效,但在蜂巢里却不行。我正在创建一个简单的PySpark文件,例如:

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, HiveContext
sconf = SparkConf()
sc = SparkContext.getOrCreate(conf=sconf)
sqlContext = HiveContext(sc)

sqlContext.sql('use db1')
...

当我运行这个脚本时,查询会得到我在配置单元编辑器中运行它们时得到的错误(它们在Impala编辑器中工作)。有没有办法解决这个问题,这样我就可以使用Impala在脚本中运行这些查询

您可以通过在Spark SQL中使用Impala或HiveServer2。这要求您安装Impala JDBC驱动程序,并在Spark应用程序中配置到Impala的连接。但是“你可以”并不意味着“你应该”,因为它会产生开销,并产生额外的依赖性,而没有任何特殊的好处


通常(这就是您当前的应用程序正在尝试做的),Spark SQL直接针对底层文件系统运行,不需要经过HiveServer2或Impala协调器。在这个场景中,Spark only(re)使用Hive Metastore检索元数据——数据库和表定义

直截了当的答案是否定的。真的吗?在色调中,它显示的“来源”是黑斑羚和蜂巢,每个都有它下面的所有星盘。没有办法指定黑斑羚为来源?谢谢。你是对的,我是说db1。我成功地使用了黑斑羚壳。