Apache spark 是否可以在没有配置单元的情况下将Spark与ORC文件格式一起使用?
我正在使用HDP2.6.4,更具体地说是Hive1.2.1和Tez0.7.0,Spark 2.2.0 我的任务很简单。以ORC文件格式存储数据,然后使用Spark处理数据。为了实现这一目标,我正在这样做:Apache spark 是否可以在没有配置单元的情况下将Spark与ORC文件格式一起使用?,apache-spark,hive,hortonworks-data-platform,orc,hive-metastore,Apache Spark,Hive,Hortonworks Data Platform,Orc,Hive Metastore,我正在使用HDP2.6.4,更具体地说是Hive1.2.1和Tez0.7.0,Spark 2.2.0 我的任务很简单。以ORC文件格式存储数据,然后使用Spark处理数据。为了实现这一目标,我正在这样做: 通过HiveQL创建配置单元表 使用Spark.SQL(“select…from…”)将数据加载到dataframe中 针对数据帧的进程 我的问题是: 1.Hive在幕后的角色是什么? 2.是否可以跳过配置单元?您可以跳过配置单元并使用SparkSQL运行步骤1中的命令 在您的案例中,Hive
2.是否可以跳过配置单元?您可以跳过配置单元并使用SparkSQL运行步骤1中的命令 在您的案例中,Hive在您的数据上定义了一个模式,并为Spark和外部客户机提供了一个查询层来进行通信 否则,
spark.orc
直接在文件系统上读写数据帧