Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 将ORC文件转换为拼花文件_Hadoop_Apache Spark_Parquet_Orc - Fatal编程技术网

Hadoop 将ORC文件转换为拼花文件

Hadoop 将ORC文件转换为拼花文件,hadoop,apache-spark,parquet,orc,Hadoop,Apache Spark,Parquet,Orc,是否有任何已知的库/方法用于将ORC文件转换为拼花地板文件?否则,我会考虑使用Spark将ORC导入数据帧,然后输出到拼花地板文件中。一种方法是: 步骤1首先,您需要从ORC表中创建一个存储为文本的表 第二步,您可以从先前的输出创建一个存储为拼花地板的表 步骤3之后,您可以删除中间表。您提到使用Spark读取ORC文件,创建数据帧,然后将这些DFs存储为拼花文件。这是一个非常有效的方法 此外,根据您的偏好和用例,您甚至可以使用Hive或Pig[可能您可以在这里加入Tez以获得更好的性能]或Jav

是否有任何已知的库/方法用于将ORC文件转换为拼花地板文件?否则,我会考虑使用Spark将ORC导入数据帧,然后输出到拼花地板文件中。一种方法是:

步骤1首先,您需要从ORC表中创建一个存储为文本的表 第二步,您可以从先前的输出创建一个存储为拼花地板的表
步骤3之后,您可以删除中间表。

您提到使用Spark读取ORC文件,创建数据帧,然后将这些DFs存储为拼花文件。这是一个非常有效的方法


此外,根据您的偏好和用例,您甚至可以使用Hive或Pig[可能您可以在这里加入Tez以获得更好的性能]或Java MapReduce,甚至NiFi/Streamset[取决于您的发行版]。这是一个非常简单的实现,您可以做任何最适合您的事情[或您最熟悉的事情:

Spark、Hive、Pig、MapReduce、NiFi。是的,可以做到。您所想到的方法有什么问题?/spark shell val orcfile=hdfs:///mypath/*.orc*val df=spark.read.formatorc.loadorcfile df.printSchema df.count df.createOrReplaceTempViewMYTBL val results=spark.sqlSELECT*来自MYTBL spark.sqldesc格式化的MYTBL.show results.countresults.write.modeOverwrite.formatparquet。savehdfs:///mypath/mytbl hls-R/mypath/mytbl/myparquet文件!