Apache spark 是否可以在没有配置单元的情况下将Spark与ORC文件格式一起使用？_Apache Spark_Hive_Hortonworks Data Platform_Orc_Hive Metastore

Apache spark 是否可以在没有配置单元的情况下将Spark与ORC文件格式一起使用？

apache-spark hive

Apache spark 是否可以在没有配置单元的情况下将Spark与ORC文件格式一起使用？,apache-spark,hive,hortonworks-data-platform,orc,hive-metastore,Apache Spark,Hive,Hortonworks Data Platform,Orc,Hive Metastore,我正在使用HDP2.6.4，更具体地说是Hive1.2.1和Tez0.7.0，Spark 2.2.0 我的任务很简单。以ORC文件格式存储数据，然后使用Spark处理数据。为了实现这一目标，我正在这样做：通过HiveQL创建配置单元表使用Spark.SQL（“select…from…”）将数据加载到dataframe中针对数据帧的进程我的问题是： 1.Hive在幕后的角色是什么？ 2.是否可以跳过配置单元？您可以跳过配置单元并使用SparkSQL运行步骤1中的命令在您的案例中，Hive

我正在使用HDP2.6.4，更具体地说是Hive1.2.1和Tez0.7.0，Spark 2.2.0

我的任务很简单。以ORC文件格式存储数据，然后使用Spark处理数据。为了实现这一目标，我正在这样做：

通过HiveQL创建配置单元表

使用Spark.SQL（“select…from…”）将数据加载到dataframe中

针对数据帧的进程

我的问题是： 1.Hive在幕后的角色是什么？

2.是否可以跳过配置单元？

您可以跳过配置单元并使用SparkSQL运行步骤1中的命令

在您的案例中，Hive在您的数据上定义了一个模式，并为Spark和外部客户机提供了一个查询层来进行通信

否则，

spark.orc

直接在文件系统上读写数据帧