Hadoop 什么是Spark';用于将数据帧保存为拼花文件的规则?

Hadoop 什么是Spark';用于将数据帧保存为拼花文件的规则?,hadoop,apache-spark,parquet,Hadoop,Apache Spark,Parquet,集群中有一个拼花文件,其中包含一个数据帧,其大小约为1.65Gb。群集的块大小为128Mb 第一次保存此文件时,它被拆分为117个大小不同的部分,没有一个超过20.6Mb 第二次保存时(read.parquet>write.parquet),它有19个部分,没有大于102.2Mb的部分,但除了最后4个部分外,大部分都在该大小附近,分别为90、50、50和30MB 第三次保存时,从第二个版本开始,它有18个部件,除最后3个部件分别为95、118和32Mb外,大部分部件约为102Mb DF包含250

集群中有一个拼花文件,其中包含一个数据帧,其大小约为1.65Gb。群集的块大小为128Mb

第一次保存此文件时,它被拆分为117个大小不同的部分,没有一个超过20.6Mb

第二次保存时(read.parquet>write.parquet),它有19个部分,没有大于102.2Mb的部分,但除了最后4个部分外,大部分都在该大小附近,分别为90、50、50和30MB

第三次保存时,从第二个版本开始,它有18个部件,除最后3个部件分别为95、118和32Mb外,大部分部件约为102Mb

DF包含2500万条记录,共44列。每天都会生成类似的数据,但这些数据保存在3个等分的500Mb或类似数据中。
集群有3个数据节点。每次保存的spark实例都是通过齐柏林飞艇笔记本使用的,它有10个执行者和一个驱动程序。

这个问题主要是出于兴趣,还是实际上对您的流程有影响?(不是想表现出攻击性,而是想知道这会有什么影响。)完全直觉:可能使用了一种(智能)算法,该算法根据列将数据保存在存储箱中,并根据读取记录的顺序,到达触发完成1部分的Treshold。目前这主要是出于好奇,但这似乎是在将来派上用场的事情之一。我能想到的论点是,pro拥有与节点一样多的部分,负载是相等的,这意味着当需要处理数据时,每个节点的工作都是相等的。这也意味着不需要在节点之间洗牌数据,而且成本很高。多个零件意味着对每个零件的位置和每个节点上的负载的控制(或信息)更少。另一方面,我理解拥有更多零件的优势在于它有助于并行处理。正如您似乎已经意识到的,最佳零件尺寸的问题是一个非常困难的问题。甚至比“拼花地板如何选择零件尺寸”这样的问题更难。这无济于事,但考虑这些因素的影响:什么时候有一个文件,每年的数据,或每周好吗?如果一个节点忙怎么办?如果您的文件太大,以至于需要太多ram才能处理,该怎么办?如果您的文件太小,以至于加载开销太大,该怎么办?如果你决定每周制作一个文件,而数据分布不均匀呢?如果每行的工作量分布不均匀呢?在决定如何分割拼花地板文件时,你的问题是正确的,并且非常重要,也许算法确实考虑了所有这些,但我更感兴趣的是为什么,考虑到相同的数据,它不会给出相同的结果。相同的数据在117个部分中保存一次,然后,在我再次加载并保存它之后,它保存在18个部分中,而同样大小和结构的数据保存在3个部分中(尽管最后一个部分是由一个只有3个执行者的集群完成的)。这个问题主要是出于兴趣,还是实际上对您的流程有影响?(不是想表现出攻击性,而是想知道这会有什么影响。)完全直觉:可能使用了一种(智能)算法,该算法根据列将数据保存在存储箱中,并根据读取记录的顺序,到达触发完成1部分的Treshold。目前这主要是出于好奇,但这似乎是在将来派上用场的事情之一。我能想到的论点是,pro拥有与节点一样多的部分,负载是相等的,这意味着当需要处理数据时,每个节点的工作都是相等的。这也意味着不需要在节点之间洗牌数据,而且成本很高。多个零件意味着对每个零件的位置和每个节点上的负载的控制(或信息)更少。另一方面,我理解拥有更多零件的优势在于它有助于并行处理。正如您似乎已经意识到的,最佳零件尺寸的问题是一个非常困难的问题。甚至比“拼花地板如何选择零件尺寸”这样的问题更难。这无济于事,但考虑这些因素的影响:什么时候有一个文件,每年的数据,或每周好吗?如果一个节点忙怎么办?如果您的文件太大,以至于需要太多ram才能处理,该怎么办?如果您的文件太小,以至于加载开销太大,该怎么办?如果你决定每周制作一个文件,而数据分布不均匀呢?如果每行的工作量分布不均匀呢?在决定如何分割拼花地板文件时,你的问题是正确的,并且非常重要,也许算法确实考虑了所有这些,但我更感兴趣的是为什么,考虑到相同的数据,它不会给出相同的结果。相同的数据在117个部分中保存一次,然后,在我再次加载并保存它之后,它保存在18个部分中,而大小和结构相似的数据保存在3个部分中(尽管最后一个部分是由只有3个执行器的集群完成的)