Apache spark ApacheSpark 2.3.1-是否需要pyspark.sql.SparkSession.builder.enableHiveSupport（）？_Apache Spark_Hadoop_Hive

Apache spark ApacheSpark 2.3.1-是否需要pyspark.sql.SparkSession.builder.enableHiveSupport（）？

apache-spark hadoop hive

Apache spark ApacheSpark 2.3.1-是否需要pyspark.sql.SparkSession.builder.enableHiveSupport（）？,apache-spark,hadoop,hive,Apache Spark,Hadoop,Hive,我对Hive的理解是，它提供了一种使用SQL命令查询HDFS的方法好吧，但还有火花。Spark拥有它的所有RDD类方法，这些方法都是完全有能力的，但我更喜欢SQL 输入sparksql。既然我可以使用Spark SQL用SQL查询我的数据库，为什么Hive会出现这种情况医生说： enableHiveSupport(): Enables Hive support, including connectivity to a persistent Hive metastore, support fo

我对Hive的理解是，它提供了一种使用SQL命令查询HDFS的方法

好吧，但还有火花。Spark拥有它的所有RDD类方法，这些方法都是完全有能力的，但我更喜欢SQL

输入sparksql。既然我可以使用Spark SQL用SQL查询我的数据库，为什么Hive会出现这种情况

医生说：

enableHiveSupport():
Enables Hive support, including connectivity to a persistent Hive metastore, support for Hive serdes, and Hive user-defined functions.

为什么需要连接到Hive元存储？在spark的文档中，它说要配置hdfs-site.xml和core-site.xml，并在

$spark\u HOME/CONF/spark env.sh

中将HADOOP\u CONF\u DIR设置为包含配置文件的位置

注意：这是我第一次简单地阅读文档并试图了解发生了什么。。。apache很有趣

有人能确认我可以忘记蜂巢吗？

spark shell自动拥有这个功能。在已编译的spark submit中，您需要配置单元支持来访问和更新配置单元元存储或spark元存储。礼宾问题。对于数据库访问的jdbc用法，不需要它。如果仅写入文件，则也不需要，例如，拼花写入或附加到HDFS子目录。但是你不能使用spark.sql。。。针对蜂巢表，黑斑羚表，因为它只是一个文件。如果想通过Impala jdbc，Kudu有点不同