Hadoop 将ORC文件转换为拼花文件
是否有任何已知的库/方法用于将ORC文件转换为拼花地板文件?否则,我会考虑使用Spark将ORC导入数据帧,然后输出到拼花地板文件中。一种方法是: 步骤1首先,您需要从ORC表中创建一个存储为文本的表 第二步,您可以从先前的输出创建一个存储为拼花地板的表Hadoop 将ORC文件转换为拼花文件,hadoop,apache-spark,parquet,orc,Hadoop,Apache Spark,Parquet,Orc,是否有任何已知的库/方法用于将ORC文件转换为拼花地板文件?否则,我会考虑使用Spark将ORC导入数据帧,然后输出到拼花地板文件中。一种方法是: 步骤1首先,您需要从ORC表中创建一个存储为文本的表 第二步,您可以从先前的输出创建一个存储为拼花地板的表 步骤3之后,您可以删除中间表。您提到使用Spark读取ORC文件,创建数据帧,然后将这些DFs存储为拼花文件。这是一个非常有效的方法 此外,根据您的偏好和用例,您甚至可以使用Hive或Pig[可能您可以在这里加入Tez以获得更好的性能]或Jav
步骤3之后,您可以删除中间表。您提到使用Spark读取ORC文件,创建数据帧,然后将这些DFs存储为拼花文件。这是一个非常有效的方法
此外,根据您的偏好和用例,您甚至可以使用Hive或Pig[可能您可以在这里加入Tez以获得更好的性能]或Java MapReduce,甚至NiFi/Streamset[取决于您的发行版]。这是一个非常简单的实现,您可以做任何最适合您的事情[或您最熟悉的事情:Spark、Hive、Pig、MapReduce、NiFi。是的,可以做到。您所想到的方法有什么问题?/spark shell val orcfile=hdfs:///mypath/*.orc*val df=spark.read.formatorc.loadorcfile df.printSchema df.count df.createOrReplaceTempViewMYTBL val results=spark.sqlSELECT*来自MYTBL spark.sqldesc格式化的MYTBL.show results.countresults.write.modeOverwrite.formatparquet。savehdfs:///mypath/mytbl hls-R/mypath/mytbl/myparquet文件!