Apache spark ApacheSpark 2.3.1-是否需要pyspark.sql.SparkSession.builder.enableHiveSupport()?
我对Hive的理解是,它提供了一种使用SQL命令查询HDFS的方法 好吧,但还有火花。Spark拥有它的所有RDD类方法,这些方法都是完全有能力的,但我更喜欢SQL 输入sparksql。既然我可以使用Spark SQL用SQL查询我的数据库,为什么Hive会出现这种情况 医生说:Apache spark ApacheSpark 2.3.1-是否需要pyspark.sql.SparkSession.builder.enableHiveSupport()?,apache-spark,hadoop,hive,Apache Spark,Hadoop,Hive,我对Hive的理解是,它提供了一种使用SQL命令查询HDFS的方法 好吧,但还有火花。Spark拥有它的所有RDD类方法,这些方法都是完全有能力的,但我更喜欢SQL 输入sparksql。既然我可以使用Spark SQL用SQL查询我的数据库,为什么Hive会出现这种情况 医生说: enableHiveSupport(): Enables Hive support, including connectivity to a persistent Hive metastore, support fo
enableHiveSupport():
Enables Hive support, including connectivity to a persistent Hive metastore, support for Hive serdes, and Hive user-defined functions.
为什么需要连接到Hive元存储?
在spark的文档中,它说要配置hdfs-site.xml和core-site.xml,并在$spark\u HOME/CONF/spark env.sh
中将HADOOP\u CONF\u DIR设置为包含配置文件的位置
注意:这是我第一次简单地阅读文档并试图了解发生了什么。。。apache很有趣
有人能确认我可以忘记蜂巢吗?spark shell自动拥有这个功能。在已编译的spark submit中,您需要配置单元支持来访问和更新配置单元元存储或spark元存储。礼宾问题。对于数据库访问的jdbc用法,不需要它。如果仅写入文件,则也不需要,例如,拼花写入或附加到HDFS子目录。但是你不能使用spark.sql。。。针对蜂巢表,黑斑羚表,因为它只是一个文件。如果想通过Impala jdbc,Kudu有点不同