Join 根据Spark中的另一个RDD筛选RDD_Join_Apache Spark_Filter_Rdd

Join 根据Spark中的另一个RDD筛选RDD

join apache-spark filter

Join 根据Spark中的另一个RDD筛选RDD,join,apache-spark,filter,rdd,Join,Apache Spark,Filter,Rdd,我有一个我想要过滤的RDD，它看起来像这样： text (06.07.03.216) COPYRIGHT © skdjh 2000-2015 File 160614_54554.vf Database 53643_csc Interface 574 zn 65 Start Date 14/06/2016 00:00:00:000 End Date 14/06/2016 00:14:59:999 State "S587654" End of f

我有一个我想要过滤的RDD，它看起来像这样：

text  (06.07.03.216)  COPYRIGHT © skdjh 2000-2015
File    160614_54554.vf Database    53643_csc   Interface   574 zn  65
Start   Date    14/06/2016  00:00:00:000
End Date    14/06/2016  00:14:59:999
State   "S587654"

End of  field Start of  field Connection duration

End of  field Start of  field Connection duration

我希望前6行是这样的：

text  (06.07.03.216)  COPYRIGHT © skdjh 2000-2015
File    160614_54554.vf Database    53643_csc   Interface   574 zn  65
Start   Date    14/06/2016  00:00:00:000
End Date    14/06/2016  00:14:59:999
State   "S587654"

End of  field Start of  field Connection duration

End of  field Start of  field Connection duration

实现这一目标最有效的方法是什么？我想到了。选项1：创建包含此行的新rdd，并使用join对其进行筛选选项2：创建一个可以过滤此行的函数最好的方法是什么？

谢谢

我能想到的摆脱前n行的唯一方法是：

data.zipWithIndex.filter（u.\u 2>n）.map（u.\u 1）

在清除第一个

条目的情况下，这将使您返回到

RDD[String]

一般来说，尽管最好寻找方法避免在

RDD

上执行本质上是

拖放的操作，但我能想到的唯一方法是去掉前n行：
data.zipWithIndex.filter（u.\u 2>n）.map（u.\u 1）

在清除第一个n
条目的情况下，这将使您返回到RDD[String]

一般来说，虽然最好是寻找方法来避免在RDD
上执行本质上是拖放的操作，但你能提供一个更具体的例子吗…我没有遵循你在这里想要的…你能提供一个更具体的例子吗…我没有遵循你在这里想要的…我有一个文件，其中有我不需要的行它们（前6行），所以我想过滤它们。从第7行开始阅读此文件的另一种方法（对不起，我的英语不够好，我是spark的初学者）谢谢你的回答。我可以用另一个rdd过滤这个rdd吗？谢谢我有一个文件，其中有我不需要的行（前6行），所以我想过滤它们。从第7行开始阅读此文件的另一种方法（对不起，我的英语不够好，我是spark的初学者）谢谢你的回答。我可以用另一个rdd过滤这个rdd吗？非常感谢。