Apache spark 如何在spark中基于列进行重新分区?

Apache spark 如何在spark中基于列进行重新分区?,apache-spark,pyspark,Apache Spark,Pyspark,我想根据day列重新划分数据帧。 比如,我在dataframe中有90天的数据,我想根据天对数据进行分区,这样我就有了每个分区中的每一天 我想要下面这样的语法。。 df.重新划分(“日”,90) 在哪里 day=>数据框中的列 90=>我想要的分区数您可以通过 import spark.implicits._ df.repartition(df.select($"day").count().toInt, $"day")

我想根据day列重新划分数据帧。 比如,我在dataframe中有90天的数据,我想根据天对数据进行分区,这样我就有了每个分区中的每一天

我想要下面这样的语法。。 df.重新划分(“日”,90)

在哪里 day=>数据框中的列 90=>我想要的分区数

您可以通过

import spark.implicits._
df.repartition(df.select($"day").count().toInt, $"day")