Apache spark PySpark：将每个分区发送到同一工作节点进行处理_Apache Spark_Cluster Analysis_Rdd

Apache spark PySpark：将每个分区发送到同一工作节点进行处理

apache-spark

Apache spark PySpark：将每个分区发送到同一工作节点进行处理,apache-spark,cluster-analysis,rdd,Apache Spark,Cluster Analysis,Rdd,我有一个包含500多个集群的PySpark数据帧，格式如下： ------------------------------- | Cluster_num | text | ------------------------------- | 1 | some_text_1 | ------------------------------- | 1 | some_text_2 | ------------------------

我有一个包含500多个集群的PySpark数据帧，格式如下：

-------------------------------
| Cluster_num | text           |
-------------------------------
| 1           | some_text_1    |
-------------------------------
| 1           | some_text_2    |
-------------------------------
| 2           | some_text_3    |
-------------------------------
| 2           | some_text_4    |
-------------------------------

我想对每个集群的文本应用

gensim.summary

，以获得每个集群的摘要。数据集非常庞大，需要最大程度地并行化。Gensim安装在所有工作节点上

有没有一种方法可以应用此函数，使同一集群的所有文本都指向同一个工作节点，并在该节点上应用此摘要函数

我试图将其转换为

RDD

，然后使用

partitionBy

和

reduceByKey

，但无法使其工作