Join 根据Spark中的另一个RDD筛选RDD
我有一个我想要过滤的RDD,它看起来像这样:Join 根据Spark中的另一个RDD筛选RDD,join,apache-spark,filter,rdd,Join,Apache Spark,Filter,Rdd,我有一个我想要过滤的RDD,它看起来像这样: text (06.07.03.216) COPYRIGHT © skdjh 2000-2015 File 160614_54554.vf Database 53643_csc Interface 574 zn 65 Start Date 14/06/2016 00:00:00:000 End Date 14/06/2016 00:14:59:999 State "S587654" End of f
text (06.07.03.216) COPYRIGHT © skdjh 2000-2015
File 160614_54554.vf Database 53643_csc Interface 574 zn 65
Start Date 14/06/2016 00:00:00:000
End Date 14/06/2016 00:14:59:999
State "S587654"
End of field Start of field Connection duration
End of field Start of field Connection duration
我希望前6行是这样的:
text (06.07.03.216) COPYRIGHT © skdjh 2000-2015
File 160614_54554.vf Database 53643_csc Interface 574 zn 65
Start Date 14/06/2016 00:00:00:000
End Date 14/06/2016 00:14:59:999
State "S587654"
End of field Start of field Connection duration
End of field Start of field Connection duration
实现这一目标最有效的方法是什么?我想到了。
选项1:创建包含此行的新rdd,并使用join对其进行筛选
选项2:创建一个可以过滤此行的函数
最好的方法是什么?
谢谢 我能想到的摆脱前n行的唯一方法是:
data.zipWithIndex.filter(u.\u 2>n).map(u.\u 1)
在清除第一个n
条目的情况下,这将使您返回到RDD[String]
一般来说,尽管最好寻找方法避免在
RDD
上执行本质上是拖放的操作,但我能想到的唯一方法是去掉前n行:
data.zipWithIndex.filter(u.\u 2>n).map(u.\u 1)
在清除第一个n
条目的情况下,这将使您返回到RDD[String]
一般来说,虽然最好是寻找方法来避免在RDD
上执行本质上是拖放的操作,但你能提供一个更具体的例子吗…我没有遵循你在这里想要的…你能提供一个更具体的例子吗…我没有遵循你在这里想要的…我有一个文件,其中有我不需要的行它们(前6行),所以我想过滤它们。从第7行开始阅读此文件的另一种方法(对不起,我的英语不够好,我是spark的初学者)谢谢你的回答。我可以用另一个rdd过滤这个rdd吗?谢谢我有一个文件,其中有我不需要的行(前6行),所以我想过滤它们。从第7行开始阅读此文件的另一种方法(对不起,我的英语不够好,我是spark的初学者)谢谢你的回答。我可以用另一个rdd过滤这个rdd吗?非常感谢。