Apache spark 如何使用映射函数链将值列表作为参数提供给RDD转换?

Apache spark 如何使用映射函数链将值列表作为参数提供给RDD转换?,apache-spark,pyspark,Apache Spark,Pyspark,我有一个拼花文件列表,其中有一些文本行作为示例。我还有另外一个要并行搜索的值列表。下面是我想要运行的代码,在这里我读取文件,进行rdd转换,然后映射每行文本,创建一个key:value对,作为按某个值过滤结果的结果。然后,我想在“一些值”列表的每个元素上并行运行一个并行函数“search_for_something”。我是不是先做sparkcontext.parallelize(一些值),然后再做其他的?如有任何建议,将不胜感激 list of some_values = [s1,s2,s3..

我有一个拼花文件列表,其中有一些文本行作为示例。我还有另外一个要并行搜索的值列表。下面是我想要运行的代码,在这里我读取文件,进行rdd转换,然后映射每行文本,创建一个key:value对,作为按某个值过滤结果的结果。然后,我想在“一些值”列表的每个元素上并行运行一个并行函数“search_for_something”。我是不是先做sparkcontext.parallelize(一些值),然后再做其他的?如有任何建议,将不胜感激

list of some_values = [s1,s2,s3...sn]

results = spark.read.parquet(input_files) \
            .rdd.map(lambda line_of_text: key_value(line_of_text)) \
            .filter(lambda line_of_text: line_of_text.contains(some_value)) \
            .map(lambda line_of_text: search_for_something(one item in the list of some_values, s)) \
            .groupByKey().collect()