Python 在dataframe中重新划分5000万条记录数据是个好主意吗？如果是，请有人告诉我这样做的适当方式_Python_Database_Dataframe_Pyspark_Hadoop2

Python 在dataframe中重新划分5000万条记录数据是个好主意吗？如果是，请有人告诉我这样做的适当方式

python database dataframe pyspark

Python 在dataframe中重新划分5000万条记录数据是个好主意吗？如果是，请有人告诉我这样做的适当方式,python,database,dataframe,pyspark,hadoop2,Python,Database,Dataframe,Pyspark,Hadoop2,我们将在组织中处理大数据（约5000万条记录）。我们根据日期和其他一些参数对数据进行分区，但数据并不是平均分区的。我们可以对它进行重新分区以获得良好的性能吗？根据您的机器，尝试维护固定数量的分区。分区总是一个好主意，但在大多数情况下，基于日期分区不是一个好主意（不确定，因为我不知道数据的性质）。通常，分区是一个好主意，正如@Karthik已经说过的，通常日期不是最好的主意。根据我的经验，根据工作人员的数量对数据进行分区总是有意义的。因此，理想情况下，分区大小是工作区的倍数。我们通常使用120个分

我们将在组织中处理大数据（约5000万条记录）。我们根据日期和其他一些参数对数据进行分区，但数据并不是平均分区的。我们可以对它进行重新分区以获得良好的性能吗？

根据您的机器，尝试维护固定数量的分区。分区总是一个好主意，但在大多数情况下，基于日期分区不是一个好主意（不确定，因为我不知道数据的性质）。

通常，分区是一个好主意，正如@Karthik已经说过的，通常日期不是最好的主意。根据我的经验，根据工作人员的数量对数据进行分区总是有意义的。因此，理想情况下，分区大小是工作区的倍数。我们通常使用120个分区，因为我们的spark环境中有24个工作区，最终的代码如下：

new\u df=spark.read.csv（“some\u csv.csv”，header=“true”，escape=“\”，quote=“\”）。重新分区（100）

我们在使用拼花地板而不是csv时也体验到了更好的性能，这是一种折衷，因为数据必须再次读取、重新分区和存储，但在分析步骤中得到了回报。所以也许你也应该考虑这个转换。