如何在Pyspark中对数据帧进行过采样?

如何在Pyspark中对数据帧进行过采样?,pyspark,oversampling,Pyspark,Oversampling,如何在pyspark中对数据帧进行过采样 df.sample(fractions, seed) 它只对df的一小部分进行采样,不能过度采样。您可以使用以下方法进行过度采样: df.sample(withReplacement=True, total_percent_of_upsample, seed) sample(withReplacement, fraction, seed=None) True表示您希望使用替换件进行采样 您所说的过采样是指与原始样品相比增加样品数量吗?如果是,您计划

如何在pyspark中对数据帧进行过采样

df.sample(fractions, seed)

它只对df的一小部分进行采样,不能过度采样。

您可以使用以下方法进行过度采样:

df.sample(withReplacement=True, total_percent_of_upsample, seed)

sample(withReplacement, fraction, seed=None)

True
表示您希望使用替换件进行采样

您所说的过采样是指与原始样品相比增加样品数量吗?如果是,您计划如何通过复制记录或应用一些过采样算法来做到这一点?请定义“过采样”的含义。如果合适的话,试着提供一个。