Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 作为黑斑羚和普雷斯托的竞争对手介绍_Python_Apache Spark_Pyspark_Hive_Apache Spark Sql - Fatal编程技术网

Python 作为黑斑羚和普雷斯托的竞争对手介绍

Python 作为黑斑羚和普雷斯托的竞争对手介绍,python,apache-spark,pyspark,hive,apache-spark-sql,Python,Apache Spark,Pyspark,Hive,Apache Spark Sql,当Spark构建为与Hive V3 HortonWorks风格交互时,有一个陷阱: 默认情况下,HiveServer2使用Spark不支持的ORC变体的特定数据格式管理ACID表 默认情况下,Metastore通过为HS2和Spark使用不同的名称空间来防止Spark知道任何HiveServer2表-有效地否定了拥有单个共享目录的目的。。。!! 因此,霍顿为Spark提供了一个专用连接器,通过HS2访问配置单元表-这否定了使用Spark执行引擎的目的。。。!! 由于Horton已被Clouder

当Spark构建为与Hive V3 HortonWorks风格交互时,有一个陷阱:

默认情况下,HiveServer2使用Spark不支持的ORC变体的特定数据格式管理ACID表 默认情况下,Metastore通过为HS2和Spark使用不同的名称空间来防止Spark知道任何HiveServer2表-有效地否定了拥有单个共享目录的目的。。。!! 因此,霍顿为Spark提供了一个专用连接器,通过HS2访问配置单元表-这否定了使用Spark执行引擎的目的。。。!!
由于Horton已被Cloudera吸收,因此Spark与Metastore集成的前景尚不明朗。霍顿发行版的大部分好部件正在替换Cloudera的跛脚或缺失部件;但是这种特定的开发显然不是很好。

Hive可能会使用Spark作为执行引擎,这显然在您的机器上工作。而不是相反。但是,如果在Hive-site.xml.中配置的属性Hive.metastore.uris似乎遗漏了一个非常重要的概念,则您可以从Spark访问配置单元元存储:当您运行访问配置单元表的Spark作业时,它只访问元数据,即仅点击配置单元元存储服务以获取数据文件的位置;然后它使用自己的执行引擎来访问数据——不是MapReduce,不是Tez,当然也不是到HiveServer2服务的JDBC连接。Spark上的Hive意味着HiveServer2服务默认使用Spark执行引擎来服务JDBC/ODBC/DBI客户机提交的SQL查询。其他选择是MapReduce或TEZ。非常感谢您的解释,现在我明白我走错了路。你介意把它贴出来作为答复吗?我会接受的。非常感谢你的解释,特别是你在周末的时间和精力。我非常感激。