Apache spark 如何使用映射函数链将值列表作为参数提供给RDD转换？_Apache Spark_Pyspark

Apache spark 如何使用映射函数链将值列表作为参数提供给RDD转换？

apache-spark pyspark

Apache spark 如何使用映射函数链将值列表作为参数提供给RDD转换？,apache-spark,pyspark,Apache Spark,Pyspark,我有一个拼花文件列表，其中有一些文本行作为示例。我还有另外一个要并行搜索的值列表。下面是我想要运行的代码，在这里我读取文件，进行rdd转换，然后映射每行文本，创建一个key:value对，作为按某个值过滤结果的结果。然后，我想在“一些值”列表的每个元素上并行运行一个并行函数“search_for_something”。我是不是先做sparkcontext.parallelize（一些值），然后再做其他的？如有任何建议，将不胜感激 list of some_values = [s1,s2,s3..

我有一个拼花文件列表，其中有一些文本行作为示例。我还有另外一个要并行搜索的值列表。下面是我想要运行的代码，在这里我读取文件，进行rdd转换，然后映射每行文本，创建一个key:value对，作为按某个值过滤结果的结果。然后，我想在“一些值”列表的每个元素上并行运行一个并行函数“search_for_something”。我是不是先做sparkcontext.parallelize（一些值），然后再做其他的？如有任何建议，将不胜感激

list of some_values = [s1,s2,s3...sn]

results = spark.read.parquet(input_files) \
            .rdd.map(lambda line_of_text: key_value(line_of_text)) \
            .filter(lambda line_of_text: line_of_text.contains(some_value)) \
            .map(lambda line_of_text: search_for_something(one item in the list of some_values, s)) \
            .groupByKey().collect()