Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用pyspark和regex在RDD字符串中查找以my_str开头的所有单词?_Regex_Apache Spark_Rdd - Fatal编程技术网

如何使用pyspark和regex在RDD字符串中查找以my_str开头的所有单词?

如何使用pyspark和regex在RDD字符串中查找以my_str开头的所有单词?,regex,apache-spark,rdd,Regex,Apache Spark,Rdd,我有一个RDD字符串(全部小写),我想使用正则表达式匹配或查找所有以“can”开头的单词。如何在Python中实现这一点 作为输入的示例,如 rdd = sc.parallelize(['canada','canpar','beauty','can']) 我想要一个像这样的输出 ['canada','canpar','can'] 这是一个使用字符串函数的RDD。 filteredRDD = rdd.filter(lambda x: x.startswith('can')) 使用re模块

我有一个RDD字符串(全部小写),我想使用正则表达式匹配或查找所有以“can”开头的单词。如何在Python中实现这一点

作为输入的示例,如

rdd = sc.parallelize(['canada','canpar','beauty','can']) 
我想要一个像这样的输出

['canada','canpar','can']

这是一个使用字符串函数的RDD。

filteredRDD = rdd.filter(lambda x: x.startswith('can'))
使用
re
模块

import re
filteredRDD = rdd.filter(lambda x: re.compile('can').match(x))

您可以通过收集filtereddd的内容来测试结果,方法是
filtereddd.collect()

我不明白为什么我的问题会得到否定的分数。你能解释一下它有什么问题吗?到目前为止你试了什么?