Regex 将正则表达式模式与RDD pyspark过滤器内的lambda进行匹配_Regex_Filter_Pyspark_Rdd_Pyspark Dataframes

Regex 将正则表达式模式与RDD pyspark过滤器内的lambda进行匹配

regex filter pyspark

Regex 将正则表达式模式与RDD pyspark过滤器内的lambda进行匹配,regex,filter,pyspark,rdd,pyspark-dataframes,Regex,Filter,Pyspark,Rdd,Pyspark Dataframes,我在RDD中有数据，它看起来像这样： ['1,google.com', '2,youtube.com', '3,facebook.com', '4,baidu.com', '5,wikipedia.org'] top1m.filter(lambda x: x['_c1'].endswith('.com')) 我想使用rdd.filter提取以.com结尾的所有URL。我试过这样的方法： ['1,google.com', '2,youtube.com',

我在RDD中有数据，它看起来像这样：

['1,google.com',  
 '2,youtube.com',  
 '3,facebook.com',  
 '4,baidu.com',  
 '5,wikipedia.org']

top1m.filter(lambda x: x['_c1'].endswith('.com'))

我想使用rdd.filter提取以.com结尾的所有URL。我试过这样的方法：

['1,google.com',  
 '2,youtube.com',  
 '3,facebook.com',  
 '4,baidu.com',  
 '5,wikipedia.org']

top1m.filter(lambda x: x['_c1'].endswith('.com'))

这给了我一个Py4JJavaError错误，因为python3.6不能与我运行的Spark会话一起工作。我觉得一定有更好的方法，尤其是使用正则表达式。请帮忙！我不确定如何使用语法。

可能是

top1m.filter（top1m[''u c1'].rlike（'[.]com$）

？或者，

top1m.filter（“'u c1'rlike'[.]com$”）

？第一个错误为“RDD对象不可订阅”，第二个错误为无效语法。