Dictionary spark:mappartition（并行）和#x2B；iterable（seq）vs while（seq）和#x2B；地图（平行）_Dictionary_Apache Spark_Key_Partition

Dictionary spark:mappartition（并行）和#x2B；iterable（seq）vs while（seq）和#x2B；地图（平行）

dictionary apache-spark

Dictionary spark:mappartition（并行）和#x2B；iterable（seq）vs while（seq）和#x2B；地图（平行）,dictionary,apache-spark,key,partition,Dictionary,Apache Spark,Key,Partition,我有以下的迪莱姆纳我使用RDD[（键0，数据），（键1，数据），（键0，数据），…] 在按键处理之前，我需要用相似的键聚合所有数据第一个想法是迭代所有不同的键，对于每个键，检索（过滤）使用相同键映射的所有数据。。通过这种方式，我仍然可以对结果结构（RDD）执行并行操作，但是如果有许多键（许多迭代），那么效率会很低第二个想法是使用自定义分区器对数据进行分区（分区数与不同的键数相同）。。然后，做一个mappartition。。但是，在每个分区内，我们只能按顺序处理数据（Iterable…）。。

我有以下的迪莱姆纳

我使用RDD[（键0，数据），（键1，数据），（键0，数据），…] 在按键处理之前，我需要用相似的键聚合所有数据

第一个想法是迭代所有不同的键，对于每个键，检索（过滤）使用相同键映射的所有数据。。通过这种方式，我仍然可以对结果结构（RDD）执行并行操作，但是如果有许多键（许多迭代），那么效率会很低

第二个想法是使用自定义分区器对数据进行分区（分区数与不同的键数相同）。。然后，做一个mappartition。。但是，在每个分区内，我们只能按顺序处理数据（Iterable…）。。如果数据太多，效率就会很低

有什么想法吗？还是存在第三个神奇的想法？

谢谢

这个问题缺乏确定所需的详细程度，但看起来

rdd.reduceByKey（聚合）

或

rdd.aggregateByKey（零）（聚合器，还原器）

符合需要

谢谢你的帮助

因此，通过聚合同一集合（缓冲区、列表等）中的数据（按键），

我可以对它们进行回归。。但是结果集合可能太大，无法驻留在单个节点上

您想做什么？按键分组，下一步是什么？您需要对数据执行哪种聚合？标记应仅用于有关处理语言的问题。