Apache spark 火花随机下降行

Apache spark 火花随机下降行,apache-spark,pyspark,apache-spark-sql,spark-dataframe,Apache Spark,Pyspark,Apache Spark Sql,Spark Dataframe,我正在测试一个缺少数据的分类器,希望随机删除Spark中的行 我想做一些事情,比如每N行删除20行 最好的方法是什么 如果是随机的,您可以使用此方法获取数据帧的一小部分。但是,如果您的想法是将数据分为培训和验证,则可以使用 另一个不那么优雅的选项是将数据帧转换为RDD,并使用索引进行过滤,可能类似于: df.rdd.zipWithIndex()过滤器(λx:x[-1]%20!=0) 你好,阿尔贝托会试试的。我的目标是模拟丢失的数据,这样我就可以看到,如果数据丢失了几秒钟,分类器将如何处理流数据。

我正在测试一个缺少数据的分类器,希望随机删除Spark中的行

我想做一些事情,比如每N行删除20行


最好的方法是什么

如果是随机的,您可以使用此方法获取
数据帧的一小部分。但是,如果您的想法是将数据分为
培训
验证
,则可以使用

另一个不那么优雅的选项是将
数据帧
转换为
RDD
,并使用
索引
进行过滤,可能类似于:

df.rdd.zipWithIndex()过滤器(λx:x[-1]%20!=0)

你好,阿尔贝托会试试的。我的目标是模拟丢失的数据,这样我就可以看到,如果数据丢失了几秒钟,分类器将如何处理流数据。第n行不是随机的。如果n是一个随机数。