Python 作为黑斑羚和普雷斯托的竞争对手介绍_Python_Apache Spark_Pyspark_Hive_Apache Spark Sql

Python 作为黑斑羚和普雷斯托的竞争对手介绍

python apache-spark pyspark hive

Python 作为黑斑羚和普雷斯托的竞争对手介绍,python,apache-spark,pyspark,hive,apache-spark-sql,Python,Apache Spark,Pyspark,Hive,Apache Spark Sql,当Spark构建为与Hive V3 HortonWorks风格交互时，有一个陷阱：默认情况下，HiveServer2使用Spark不支持的ORC变体的特定数据格式管理ACID表默认情况下，Metastore通过为HS2和Spark使用不同的名称空间来防止Spark知道任何HiveServer2表-有效地否定了拥有单个共享目录的目的。。。！！因此，霍顿为Spark提供了一个专用连接器，通过HS2访问配置单元表-这否定了使用Spark执行引擎的目的。。。！！由于Horton已被Clouder

当Spark构建为与Hive V3 HortonWorks风格交互时，有一个陷阱：

默认情况下，HiveServer2使用Spark不支持的ORC变体的特定数据格式管理ACID表默认情况下，Metastore通过为HS2和Spark使用不同的名称空间来防止Spark知道任何HiveServer2表-有效地否定了拥有单个共享目录的目的。。。！！因此，霍顿为Spark提供了一个专用连接器，通过HS2访问配置单元表-这否定了使用Spark执行引擎的目的。。。！！

由于Horton已被Cloudera吸收，因此Spark与Metastore集成的前景尚不明朗。霍顿发行版的大部分好部件正在替换Cloudera的跛脚或缺失部件；但是这种特定的开发显然不是很好。

Hive可能会使用Spark作为执行引擎，这显然在您的机器上工作。而不是相反。但是，如果在Hive-site.xml.中配置的属性Hive.metastore.uris似乎遗漏了一个非常重要的概念，则您可以从Spark访问配置单元元存储：当您运行访问配置单元表的Spark作业时，它只访问元数据，即仅点击配置单元元存储服务以获取数据文件的位置；然后它使用自己的执行引擎来访问数据——不是MapReduce，不是Tez，当然也不是到HiveServer2服务的JDBC连接。Spark上的Hive意味着HiveServer2服务默认使用Spark执行引擎来服务JDBC/ODBC/DBI客户机提交的SQL查询。其他选择是MapReduce或TEZ。非常感谢您的解释，现在我明白我走错了路。你介意把它贴出来作为答复吗？我会接受的。非常感谢你的解释，特别是你在周末的时间和精力。我非常感激。