Join 根据Spark中的另一个RDD筛选RDD

Join 根据Spark中的另一个RDD筛选RDD,join,apache-spark,filter,rdd,Join,Apache Spark,Filter,Rdd,我有一个我想要过滤的RDD,它看起来像这样: text (06.07.03.216) COPYRIGHT © skdjh 2000-2015 File 160614_54554.vf Database 53643_csc Interface 574 zn 65 Start Date 14/06/2016 00:00:00:000 End Date 14/06/2016 00:14:59:999 State "S587654" End of f

我有一个我想要过滤的RDD,它看起来像这样:

text  (06.07.03.216)  COPYRIGHT © skdjh 2000-2015
File    160614_54554.vf Database    53643_csc   Interface   574 zn  65
Start   Date    14/06/2016  00:00:00:000
End Date    14/06/2016  00:14:59:999
State   "S587654"

End of  field Start of  field Connection duration   
End of  field Start of  field Connection duration
我希望前6行是这样的:

text  (06.07.03.216)  COPYRIGHT © skdjh 2000-2015
File    160614_54554.vf Database    53643_csc   Interface   574 zn  65
Start   Date    14/06/2016  00:00:00:000
End Date    14/06/2016  00:14:59:999
State   "S587654"

End of  field Start of  field Connection duration   
End of  field Start of  field Connection duration
实现这一目标最有效的方法是什么?我想到了。 选项1:创建包含此行的新rdd,并使用join对其进行筛选 选项2:创建一个可以过滤此行的函数 最好的方法是什么?
谢谢

我能想到的摆脱前n行的唯一方法是:

data.zipWithIndex.filter(u.\u 2>n).map(u.\u 1)

在清除第一个
n
条目的情况下,这将使您返回到
RDD[String]


一般来说,尽管最好寻找方法避免在
RDD

上执行本质上是
拖放的操作,但我能想到的唯一方法是去掉前n行:

data.zipWithIndex.filter(u.\u 2>n).map(u.\u 1)

在清除第一个
n
条目的情况下,这将使您返回到
RDD[String]


一般来说,虽然最好是寻找方法来避免在
RDD
上执行本质上是
拖放的操作,但你能提供一个更具体的例子吗…我没有遵循你在这里想要的…你能提供一个更具体的例子吗…我没有遵循你在这里想要的…我有一个文件,其中有我不需要的行它们(前6行),所以我想过滤它们。从第7行开始阅读此文件的另一种方法(对不起,我的英语不够好,我是spark的初学者)谢谢你的回答。我可以用另一个rdd过滤这个rdd吗?谢谢我有一个文件,其中有我不需要的行(前6行),所以我想过滤它们。从第7行开始阅读此文件的另一种方法(对不起,我的英语不够好,我是spark的初学者)谢谢你的回答。我可以用另一个rdd过滤这个rdd吗?非常感谢。