如何在Pyspark中对数据帧进行过采样?
如何在pyspark中对数据帧进行过采样如何在Pyspark中对数据帧进行过采样?,pyspark,oversampling,Pyspark,Oversampling,如何在pyspark中对数据帧进行过采样 df.sample(fractions, seed) 它只对df的一小部分进行采样,不能过度采样。您可以使用以下方法进行过度采样: df.sample(withReplacement=True, total_percent_of_upsample, seed) sample(withReplacement, fraction, seed=None) True表示您希望使用替换件进行采样 您所说的过采样是指与原始样品相比增加样品数量吗?如果是,您计划
df.sample(fractions, seed)
它只对df的一小部分进行采样,不能过度采样。您可以使用以下方法进行过度采样:
df.sample(withReplacement=True, total_percent_of_upsample, seed)
sample(withReplacement, fraction, seed=None)
True
表示您希望使用替换件进行采样 您所说的过采样是指与原始样品相比增加样品数量吗?如果是,您计划如何通过复制记录或应用一些过采样算法来做到这一点?请定义“过采样”的含义。如果合适的话,试着提供一个。