在PySpark中有没有一种方法可以使用黑斑羚而不是蜂巢？_Pyspark_Hive_Impala_Hue

在PySpark中有没有一种方法可以使用黑斑羚而不是蜂巢？

pyspark hive

在PySpark中有没有一种方法可以使用黑斑羚而不是蜂巢？,pyspark,hive,impala,hue,Pyspark,Hive,Impala,Hue,我有一些问题在黑斑羚身上有效，但在蜂巢里却不行。我正在创建一个简单的PySpark文件，例如： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, HiveContext sconf = SparkConf() sc = SparkContext.getOrCreate(conf=sconf) sqlContext = HiveContext(sc) sqlContext.sql('us

我有一些问题在黑斑羚身上有效，但在蜂巢里却不行。我正在创建一个简单的PySpark文件，例如：

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, HiveContext
sconf = SparkConf()
sc = SparkContext.getOrCreate(conf=sconf)
sqlContext = HiveContext(sc)

sqlContext.sql('use db1')
...

当我运行这个脚本时，查询会得到我在配置单元编辑器中运行它们时得到的错误（它们在Impala编辑器中工作）。有没有办法解决这个问题，这样我就可以使用Impala在脚本中运行这些查询

您可以通过在Spark SQL中使用Impala或HiveServer2。这要求您安装Impala JDBC驱动程序，并在Spark应用程序中配置到Impala的连接。但是“你可以”并不意味着“你应该”，因为它会产生开销，并产生额外的依赖性，而没有任何特殊的好处

通常（这就是您当前的应用程序正在尝试做的），Spark SQL直接针对底层文件系统运行，不需要经过HiveServer2或Impala协调器。在这个场景中，Spark only（re）使用Hive Metastore检索元数据——数据库和表定义

直截了当的答案是否定的。真的吗？在色调中，它显示的“来源”是黑斑羚和蜂巢，每个都有它下面的所有星盘。没有办法指定黑斑羚为来源？谢谢。你是对的，我是说db1。我成功地使用了黑斑羚壳。