Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中_Hadoop_Apache Spark_Dataframe_Hive - Fatal编程技术网

Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中

Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中,hadoop,apache-spark,dataframe,hive,Hadoop,Apache Spark,Dataframe,Hive,我有个要求,, 巨大的数据被分割并插入到配置单元中。为了绑定这些数据,我使用了DF.Coalesce10。现在我想将这个部分数据绑定到单个目录,如果我使用DF.Coalesce1,性能会下降吗?或者我有任何其他进程可以这样做吗?据我所知,您正试图确保每个分区的文件数量减少。因此,通过使用coalesce10,每个分区最多可以获得10个文件。我建议使用repartition$COL,这里COL是用于对数据进行分区的列。这将确保根据配置单元中使用的分区列分割巨大的数据。df.repartition$

我有个要求,,
巨大的数据被分割并插入到配置单元中。为了绑定这些数据,我使用了DF.Coalesce10。现在我想将这个部分数据绑定到单个目录,如果我使用DF.Coalesce1,性能会下降吗?或者我有任何其他进程可以这样做吗?

据我所知,您正试图确保每个分区的文件数量减少。因此,通过使用coalesce10,每个分区最多可以获得10个文件。我建议使用repartition$COL,这里COL是用于对数据进行分区的列。这将确保根据配置单元中使用的分区列分割巨大的数据。df.repartition$COL

如果您有大量数据,建议不要将所有数据都放在一个分区中。您可能最终无法控制您的主节点,因此它将失败…@eliasah:您能建议我如何处理这种情况吗?我强烈建议您阅读以下问题和答案:我猜df.repartition$COL对我的情况没有帮助。。。因为我想要一个目录中的数据…如果您正在写入同一个目录,您只需使用df.repartition100即可获得100个大小相同的文件。因为您没有分区,所以不需要使用列来分发数据。