Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中_Hadoop_Apache Spark_Dataframe_Hive

Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中

hadoop apache-spark dataframe hive

Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中,hadoop,apache-spark,dataframe,hive,Hadoop,Apache Spark,Dataframe,Hive,我有个要求,，巨大的数据被分割并插入到配置单元中。为了绑定这些数据，我使用了DF.Coalesce10。现在我想将这个部分数据绑定到单个目录，如果我使用DF.Coalesce1，性能会下降吗？或者我有任何其他进程可以这样做吗？据我所知，您正试图确保每个分区的文件数量减少。因此，通过使用coalesce10，每个分区最多可以获得10个文件。我建议使用repartition$COL，这里COL是用于对数据进行分区的列。这将确保根据配置单元中使用的分区列分割巨大的数据。df.repartition$

我有个要求,，

巨大的数据被分割并插入到配置单元中。为了绑定这些数据，我使用了DF.Coalesce10。现在我想将这个部分数据绑定到单个目录，如果我使用DF.Coalesce1，性能会下降吗？或者我有任何其他进程可以这样做吗？

据我所知，您正试图确保每个分区的文件数量减少。因此，通过使用coalesce10，每个分区最多可以获得10个文件。我建议使用repartition$COL，这里COL是用于对数据进行分区的列。这将确保根据配置单元中使用的分区列分割巨大的数据。df.repartition$COL

如果您有大量数据，建议不要将所有数据都放在一个分区中。您可能最终无法控制您的主节点，因此它将失败…@eliasah:您能建议我如何处理这种情况吗？我强烈建议您阅读以下问题和答案：我猜df.repartition$COL对我的情况没有帮助。。。因为我想要一个目录中的数据…如果您正在写入同一个目录，您只需使用df.repartition100即可获得100个大小相同的文件。因为您没有分区，所以不需要使用列来分发数据。