Apache spark PySpark:将每个分区发送到同一工作节点进行处理
我有一个包含500多个集群的PySpark数据帧,格式如下:Apache spark PySpark:将每个分区发送到同一工作节点进行处理,apache-spark,cluster-analysis,rdd,Apache Spark,Cluster Analysis,Rdd,我有一个包含500多个集群的PySpark数据帧,格式如下: ------------------------------- | Cluster_num | text | ------------------------------- | 1 | some_text_1 | ------------------------------- | 1 | some_text_2 | ------------------------
-------------------------------
| Cluster_num | text |
-------------------------------
| 1 | some_text_1 |
-------------------------------
| 1 | some_text_2 |
-------------------------------
| 2 | some_text_3 |
-------------------------------
| 2 | some_text_4 |
-------------------------------
我想对每个集群的文本应用gensim.summary
,以获得每个集群的摘要。数据集非常庞大,需要最大程度地并行化。Gensim安装在所有工作节点上
有没有一种方法可以应用此函数,使同一集群的所有文本都指向同一个工作节点,并在该节点上应用此摘要函数
我试图将其转换为RDD
,然后使用partitionBy
和reduceByKey
,但无法使其工作