Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 什么';spark sql over hive的目的是什么?_Apache Spark_Hive_Tez - Fatal编程技术网

Apache spark 什么';spark sql over hive的目的是什么?

Apache spark 什么';spark sql over hive的目的是什么?,apache-spark,hive,tez,Apache Spark,Hive,Tez,我知道多年前就有人问过这个问题,但我仍然想知道使用SparkSQL/HiveContext的真正目的 Spark方法提供了一种比内置MapReduce更通用的分布式方法 我读过很多文章,声称way先生已经死了,Spark是最好的(我知道我可以通过Spark实现MR方法) 当建议使用HiveContext查询数据时,我有点困惑 实际上,从SparkSQL/HiveContext运行查询不意味着运行MR作业吗?回到主要问题上来不是吗?TEZ如果我不需要将查询结果封装在更复杂的代码中,这难道不足够吗

我知道多年前就有人问过这个问题,但我仍然想知道使用SparkSQL/HiveContext的真正目的

Spark方法提供了一种比内置MapReduce更通用的分布式方法

我读过很多文章,声称way先生已经死了,Spark是最好的(我知道我可以通过Spark实现MR方法)

当建议使用HiveContext查询数据时,我有点困惑

实际上,从SparkSQL/HiveContext运行查询不意味着运行MR作业吗?回到主要问题上来不是吗?TEZ如果我不需要将查询结果封装在更复杂的代码中,这难道不足够吗

我错了吗

实际上,从SparkSQL/HiveContext运行查询不意味着运行MR作业吗

事实并非如此。事实上,使用带有“配置单元支持”的
HiveContext
SparkSession
并不意味着与配置单元有任何连接,除了使用配置单元元存储。这种方法被许多其他系统使用,包括ETL解决方案和数据库

最后:

  • Hive是一个具有模块化组件的数据库。它支持相对丰富的权限系统、变体和事务
  • Spark是通用处理引擎。尽管有SQLISH组件,但它并不试图成为一个数据库