Apache spark 如果不使用Map Reduce,蜂巢3上的蜂巢ORC酸是否需要TEZ?

Apache spark 如果不使用Map Reduce,蜂巢3上的蜂巢ORC酸是否需要TEZ?,apache-spark,hadoop,hive,orc,acid,Apache Spark,Hadoop,Hive,Orc,Acid,我的理解是,对于Hive 3,如果没有使用Map Reduce或Spark engine for Hive,则使用MERGE的Hive ORC ACID表至少需要TEZ作为底层执行引擎。事实上,我不相信配置单元合并、更新、删除与Spark引擎一起工作 但从文件和各种更新,我不能确认这些,因此这篇文章。似乎很难就这个话题写出一套连贯的散文,而我却远离了一个群体 而且,声明完整事务功能的斜体和粗体声明我无法理解,因为我不知道SPARK可以在HIVE ORC ACID上更新、删除(目前): Apach

我的理解是,对于Hive 3,如果没有使用Map Reduce或Spark engine for Hive,则使用MERGE的Hive ORC ACID表至少需要TEZ作为底层执行引擎。事实上,我不相信配置单元合并、更新、删除与Spark引擎一起工作

但从文件和各种更新,我不能确认这些,因此这篇文章。似乎很难就这个话题写出一套连贯的散文,而我却远离了一个群体

而且,声明完整事务功能的斜体和粗体声明我无法理解,因为我不知道SPARK可以在HIVE ORC ACID上更新、删除(目前):

Apache Spark

ApacheSpark通过配置单元获得可更新的表和ACID事务 仓库连接器蜂巢仓库连接器允许您注册 将配置单元事务表作为Spark中的外部表来访问完整的 事务性功能。以前的版本仅支持表 分区操作。Hive Warehouse连接器还支持 流式数据帧,用于将读取和写入流式传输到事务 还有Spark的蜂巢桌

Spark Executor可以直接连接到配置单元LLAP守护进程以检索 并以事务方式更新数据,使配置单元能够 数据的控制

HDInsight 4.0上的Apache Spark支持以下场景:

在同一事务表上运行机器学习模型培训 用于报告。使用ACID事务从中安全地添加列 将ML放在蜂箱桌上。在更改提要上运行Spark流作业 从蜂巢流表。直接从Spark创建ORC文件 结构化流媒体作业。你再也不用担心了 意外尝试直接从中访问配置单元事务表 火花,导致结果不一致、数据重复或 腐败。在HDInsight 4.0中,Spark表和配置单元表保存在 单独的元存储。使用配置单元数据仓库连接器显式 将配置单元事务表注册为Spark外部表

上面的粗体斜体语句不正确

明确表示Spark不允许蜂巢ORC酸处理

MR正在各种云平台上消失,TEZ现在是默认引擎,因此sqoop和Hive ORC ACID使用它,因此至少需要TEZ

注:我只是在上一次作业中问了这个问题,这个讨论来自“楼上”的人