Python 在dataframe中重新划分5000万条记录数据是个好主意吗?如果是,请有人告诉我这样做的适当方式

Python 在dataframe中重新划分5000万条记录数据是个好主意吗?如果是,请有人告诉我这样做的适当方式,python,database,dataframe,pyspark,hadoop2,Python,Database,Dataframe,Pyspark,Hadoop2,我们将在组织中处理大数据(约5000万条记录)。我们根据日期和其他一些参数对数据进行分区,但数据并不是平均分区的。我们可以对它进行重新分区以获得良好的性能吗?根据您的机器,尝试维护固定数量的分区。分区总是一个好主意,但在大多数情况下,基于日期分区不是一个好主意(不确定,因为我不知道数据的性质)。通常,分区是一个好主意,正如@Karthik已经说过的,通常日期不是最好的主意。根据我的经验,根据工作人员的数量对数据进行分区总是有意义的。因此,理想情况下,分区大小是工作区的倍数。我们通常使用120个分

我们将在组织中处理大数据(约5000万条记录)。我们根据日期和其他一些参数对数据进行分区,但数据并不是平均分区的。我们可以对它进行重新分区以获得良好的性能吗?

根据您的机器,尝试维护固定数量的分区。分区总是一个好主意,但在大多数情况下,基于日期分区不是一个好主意(不确定,因为我不知道数据的性质)。

通常,分区是一个好主意,正如@Karthik已经说过的,通常日期不是最好的主意。根据我的经验,根据工作人员的数量对数据进行分区总是有意义的。因此,理想情况下,分区大小是工作区的倍数。我们通常使用120个分区,因为我们的spark环境中有24个工作区,最终的代码如下:
new\u df=spark.read.csv(“some\u csv.csv”,header=“true”,escape=“\”,quote=“\”)。重新分区(100)

我们在使用拼花地板而不是csv时也体验到了更好的性能,这是一种折衷,因为数据必须再次读取、重新分区和存储,但在分析步骤中得到了回报。所以也许你也应该考虑这个转换。