Hadoop 将ORC文件转换为拼花文件_Hadoop_Apache Spark_Parquet_Orc

Hadoop 将ORC文件转换为拼花文件

hadoop apache-spark

Hadoop 将ORC文件转换为拼花文件,hadoop,apache-spark,parquet,orc,Hadoop,Apache Spark,Parquet,Orc,是否有任何已知的库/方法用于将ORC文件转换为拼花地板文件？否则，我会考虑使用Spark将ORC导入数据帧，然后输出到拼花地板文件中。一种方法是：步骤1首先，您需要从ORC表中创建一个存储为文本的表第二步，您可以从先前的输出创建一个存储为拼花地板的表步骤3之后，您可以删除中间表。您提到使用Spark读取ORC文件，创建数据帧，然后将这些DFs存储为拼花文件。这是一个非常有效的方法此外，根据您的偏好和用例，您甚至可以使用Hive或Pig[可能您可以在这里加入Tez以获得更好的性能]或Jav

是否有任何已知的库/方法用于将ORC文件转换为拼花地板文件？否则，我会考虑使用Spark将ORC导入数据帧，然后输出到拼花地板文件中。一种方法是：

步骤1首先，您需要从ORC表中创建一个存储为文本的表第二步，您可以从先前的输出创建一个存储为拼花地板的表

步骤3之后，您可以删除中间表。

您提到使用Spark读取ORC文件，创建数据帧，然后将这些DFs存储为拼花文件。这是一个非常有效的方法

此外，根据您的偏好和用例，您甚至可以使用Hive或Pig[可能您可以在这里加入Tez以获得更好的性能]或Java MapReduce，甚至NiFi/Streamset[取决于您的发行版]。这是一个非常简单的实现，您可以做任何最适合您的事情[或您最熟悉的事情：

Spark、Hive、Pig、MapReduce、NiFi。是的，可以做到。您所想到的方法有什么问题？/spark shell val orcfile=hdfs:///mypath/*.orc*val df=spark.read.formatorc.loadorcfile df.printSchema df.count df.createOrReplaceTempViewMYTBL val results=spark.sqlSELECT*来自MYTBL spark.sqldesc格式化的MYTBL.show results.countresults.write.modeOverwrite.formatparquet。savehdfs:///mypath/mytbl hls-R/mypath/mytbl/myparquet文件！