Regex 将正则表达式模式与RDD pyspark过滤器内的lambda进行匹配

Regex 将正则表达式模式与RDD pyspark过滤器内的lambda进行匹配,regex,filter,pyspark,rdd,pyspark-dataframes,Regex,Filter,Pyspark,Rdd,Pyspark Dataframes,我在RDD中有数据,它看起来像这样: ['1,google.com', '2,youtube.com', '3,facebook.com', '4,baidu.com', '5,wikipedia.org'] top1m.filter(lambda x: x['_c1'].endswith('.com')) 我想使用rdd.filter提取以.com结尾的所有URL。 我试过这样的方法: ['1,google.com', '2,youtube.com',

我在RDD中有数据,它看起来像这样:

['1,google.com',  
 '2,youtube.com',  
 '3,facebook.com',  
 '4,baidu.com',  
 '5,wikipedia.org']  
top1m.filter(lambda x: x['_c1'].endswith('.com'))
我想使用rdd.filter提取以.com结尾的所有URL。 我试过这样的方法:

['1,google.com',  
 '2,youtube.com',  
 '3,facebook.com',  
 '4,baidu.com',  
 '5,wikipedia.org']  
top1m.filter(lambda x: x['_c1'].endswith('.com'))
这给了我一个Py4JJavaError错误,因为python3.6不能与我运行的Spark会话一起工作。我觉得一定有更好的方法,尤其是使用正则表达式。请帮忙!我不确定如何使用语法。

可能是
top1m.filter(top1m[''u c1'].rlike('[.]com$)
?或者,
top1m.filter(“'u c1'rlike'[.]com$”)
?第一个错误为“RDD对象不可订阅”,第二个错误为无效语法。