Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark PySpark:将每个分区发送到同一工作节点进行处理_Apache Spark_Cluster Analysis_Rdd - Fatal编程技术网

Apache spark PySpark:将每个分区发送到同一工作节点进行处理

Apache spark PySpark:将每个分区发送到同一工作节点进行处理,apache-spark,cluster-analysis,rdd,Apache Spark,Cluster Analysis,Rdd,我有一个包含500多个集群的PySpark数据帧,格式如下: ------------------------------- | Cluster_num | text | ------------------------------- | 1 | some_text_1 | ------------------------------- | 1 | some_text_2 | ------------------------

我有一个包含500多个集群的PySpark数据帧,格式如下:

-------------------------------
| Cluster_num | text           |
-------------------------------
| 1           | some_text_1    |
-------------------------------
| 1           | some_text_2    |
-------------------------------
| 2           | some_text_3    |
-------------------------------
| 2           | some_text_4    |
-------------------------------
我想对每个集群的文本应用
gensim.summary
,以获得每个集群的摘要。数据集非常庞大,需要最大程度地并行化。Gensim安装在所有工作节点上

有没有一种方法可以应用此函数,使同一集群的所有文本都指向同一个工作节点,并在该节点上应用此摘要函数

我试图将其转换为
RDD
,然后使用
partitionBy
reduceByKey
,但无法使其工作