PySpark RDD过滤器,带;不在「;对于多个值
我有一个RDD,如下所示:PySpark RDD过滤器,带;不在「;对于多个值,pyspark,rdd,Pyspark,Rdd,我有一个RDD,如下所示: myRDD: [[u'16/12/2006', u'17:24:00'], [u'16/12/2006', u'?'], [u'16/12/2006', u'']] 我想排除其中包含“?”或“”的记录。 下面的代码适用于逐个筛选,但是否有一种方法可以一次性使用“?”和“”组合和筛选项,以返回以下内容: [u'16/12/2006', u'17:24:00'] 以下内容一次仅适用于一个项目,如何扩展到多个项目 myRDD.filter(lambda x: '?'
myRDD:
[[u'16/12/2006', u'17:24:00'],
[u'16/12/2006', u'?'],
[u'16/12/2006', u'']]
我想排除其中包含“?”或“”的记录。
下面的代码适用于逐个筛选,但是否有一种方法可以一次性使用“?”和“”组合和筛选项,以返回以下内容:
[u'16/12/2006', u'17:24:00']
以下内容一次仅适用于一个项目,如何扩展到多个项目
myRDD.filter(lambda x: '?' not in x)
需要有关如何编写的帮助:
myRDD.filter(lambda x: '?' not in x && '' not in x)
试试这个
myRDD.filter(lambda x: ('?' not in x) & ('' not in x))
试试这个
myRDD.filter(lambda x: ('?' not in x) & ('' not in x))
工作,谢谢SureshWorks,谢谢Suresh