Apache spark 是否可以在没有配置单元的情况下将Spark与ORC文件格式一起使用?

Apache spark 是否可以在没有配置单元的情况下将Spark与ORC文件格式一起使用?,apache-spark,hive,hortonworks-data-platform,orc,hive-metastore,Apache Spark,Hive,Hortonworks Data Platform,Orc,Hive Metastore,我正在使用HDP2.6.4,更具体地说是Hive1.2.1和Tez0.7.0,Spark 2.2.0 我的任务很简单。以ORC文件格式存储数据,然后使用Spark处理数据。为了实现这一目标,我正在这样做: 通过HiveQL创建配置单元表 使用Spark.SQL(“select…from…”)将数据加载到dataframe中 针对数据帧的进程 我的问题是: 1.Hive在幕后的角色是什么? 2.是否可以跳过配置单元?您可以跳过配置单元并使用SparkSQL运行步骤1中的命令 在您的案例中,Hive

我正在使用HDP2.6.4,更具体地说是Hive1.2.1和Tez0.7.0,Spark 2.2.0

我的任务很简单。以ORC文件格式存储数据,然后使用Spark处理数据。为了实现这一目标,我正在这样做:

  • 通过HiveQL创建配置单元表
  • 使用Spark.SQL(“select…from…”)将数据加载到dataframe中
  • 针对数据帧的进程
  • 我的问题是: 1.Hive在幕后的角色是什么?
    2.是否可以跳过配置单元?

    您可以跳过配置单元并使用SparkSQL运行步骤1中的命令

    在您的案例中,Hive在您的数据上定义了一个模式,并为Spark和外部客户机提供了一个查询层来进行通信

    否则,
    spark.orc
    直接在文件系统上读写数据帧