Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中
我有个要求,,Hadoop 如何在spark/Hive中将大部分数据合并到单个目录中,hadoop,apache-spark,dataframe,hive,Hadoop,Apache Spark,Dataframe,Hive,我有个要求,, 巨大的数据被分割并插入到配置单元中。为了绑定这些数据,我使用了DF.Coalesce10。现在我想将这个部分数据绑定到单个目录,如果我使用DF.Coalesce1,性能会下降吗?或者我有任何其他进程可以这样做吗?据我所知,您正试图确保每个分区的文件数量减少。因此,通过使用coalesce10,每个分区最多可以获得10个文件。我建议使用repartition$COL,这里COL是用于对数据进行分区的列。这将确保根据配置单元中使用的分区列分割巨大的数据。df.repartition$
巨大的数据被分割并插入到配置单元中。为了绑定这些数据,我使用了DF.Coalesce10。现在我想将这个部分数据绑定到单个目录,如果我使用DF.Coalesce1,性能会下降吗?或者我有任何其他进程可以这样做吗?据我所知,您正试图确保每个分区的文件数量减少。因此,通过使用coalesce10,每个分区最多可以获得10个文件。我建议使用repartition$COL,这里COL是用于对数据进行分区的列。这将确保根据配置单元中使用的分区列分割巨大的数据。df.repartition$COL如果您有大量数据,建议不要将所有数据都放在一个分区中。您可能最终无法控制您的主节点,因此它将失败…@eliasah:您能建议我如何处理这种情况吗?我强烈建议您阅读以下问题和答案:我猜df.repartition$COL对我的情况没有帮助。。。因为我想要一个目录中的数据…如果您正在写入同一个目录,您只需使用df.repartition100即可获得100个大小相同的文件。因为您没有分区,所以不需要使用列来分发数据。