Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Dictionary spark:mappartition(并行)和#x2B;iterable(seq)vs while(seq)和#x2B;地图(平行)_Dictionary_Apache Spark_Key_Partition - Fatal编程技术网

Dictionary spark:mappartition(并行)和#x2B;iterable(seq)vs while(seq)和#x2B;地图(平行)

Dictionary spark:mappartition(并行)和#x2B;iterable(seq)vs while(seq)和#x2B;地图(平行),dictionary,apache-spark,key,partition,Dictionary,Apache Spark,Key,Partition,我有以下的迪莱姆纳 我使用RDD[(键0,数据),(键1,数据),(键0,数据),…] 在按键处理之前,我需要用相似的键聚合所有数据 第一个想法是迭代所有不同的键,对于每个键,检索(过滤)使用相同键映射的所有数据。。通过这种方式,我仍然可以对结果结构(RDD)执行并行操作,但是如果有许多键(许多迭代),那么效率会很低 第二个想法是使用自定义分区器对数据进行分区(分区数与不同的键数相同)。。然后,做一个mappartition。。但是,在每个分区内,我们只能按顺序处理数据(Iterable…)。。

我有以下的迪莱姆纳

我使用RDD[(键0,数据),(键1,数据),(键0,数据),…] 在按键处理之前,我需要用相似的键聚合所有数据

第一个想法是迭代所有不同的键,对于每个键,检索(过滤)使用相同键映射的所有数据。。通过这种方式,我仍然可以对结果结构(RDD)执行并行操作,但是如果有许多键(许多迭代),那么效率会很低

第二个想法是使用自定义分区器对数据进行分区(分区数与不同的键数相同)。。然后,做一个mappartition。。但是,在每个分区内,我们只能按顺序处理数据(Iterable…)。。如果数据太多,效率就会很低

有什么想法吗?还是存在第三个神奇的想法?
谢谢

这个问题缺乏确定所需的详细程度,但看起来
rdd.reduceByKey(聚合)
rdd.aggregateByKey(零)(聚合器,还原器)
符合需要

谢谢你的帮助

因此,通过聚合同一集合(缓冲区、列表等)中的数据(按键),
我可以对它们进行回归。。但是结果集合可能太大,无法驻留在单个节点上

您想做什么?按键分组,下一步是什么?您需要对数据执行哪种聚合?标记应仅用于有关处理语言的问题。