Python Spark RDD使用ID列表获取所有可能的对组合

Python Spark RDD使用ID列表获取所有可能的对组合,python,pyspark,Python,Pyspark,我有一个企业ID的rdd rdd => ['business_id1', 'business_id2', 'business_id3'] 如何在python中以分布式方式使用spark中的Itertools创建所有业务Id对组合您必须编写自己版本的Itertools.combines函数,该函数适用于分布式列表。您可以尝试使用rdd.cartesian(rdd),它提供了所有的组合,然后根据您的要求尝试从生成的rdd中过滤出来。您必须编写自己版本的itertools.combinatio

我有一个企业ID的rdd

rdd => ['business_id1', 'business_id2', 'business_id3']

如何在python中以分布式方式使用spark中的Itertools创建所有业务Id对组合

您必须编写自己版本的
Itertools.combines
函数,该函数适用于分布式列表。您可以尝试使用
rdd.cartesian(rdd)
,它提供了所有的组合,然后根据您的要求尝试从生成的
rdd
中过滤出来。您必须编写自己版本的
itertools.combinations
函数,该函数适用于分布式列表。您可以尝试使用
rdd.cartesian(rdd)
,它提供了所有的组合,然后根据您的要求尝试从结果
rdd
中过滤出来。