Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark apachebeam中重划分的等价性_Apache Spark_Pyspark_Google Cloud Dataflow_Apache Beam_Apache Beam Internals - Fatal编程技术网

Apache spark apachebeam中重划分的等价性

Apache spark apachebeam中重划分的等价性,apache-spark,pyspark,google-cloud-dataflow,apache-beam,apache-beam-internals,Apache Spark,Pyspark,Google Cloud Dataflow,Apache Beam,Apache Beam Internals,在spark中,如果我们必须重新排列数据,我们可以使用数据帧的重新分区。在ApacheBeam中,对pcollection执行相同操作的方法是什么 在Pypark new_df = df.repartition(4) 由此: 您可以插入一个改组步骤。重新洗牌可防止融合、检查数据并执行记录的重复数据消除。数据流支持重新洗牌,即使它在Apache Beam文档中被标记为不推荐使用 虽然我不确定这次改组是否会得到其他Beam公司的支持 java和对改组的进一步解释:问题是如何在ApacheBeam中

在spark中,如果我们必须重新排列数据,我们可以使用数据帧的重新分区。在ApacheBeam中,对pcollection执行相同操作的方法是什么

在Pypark

new_df = df.repartition(4)
由此:

您可以插入一个改组步骤。重新洗牌可防止融合、检查数据并执行记录的重复数据消除。数据流支持重新洗牌,即使它在Apache Beam文档中被标记为不推荐使用

虽然我不确定这次改组是否会得到其他Beam公司的支持


java和对改组的进一步解释:

问题是如何在ApacheBeam中实现它?执行此操作的方法名是什么?它被称为
Reshuffle
,有些。您还可以实现自己的重新洗牌逻辑,例如:所有现有运行程序都支持重新洗牌。对于Python,您可以执行
reshuffled\u pcoll=original\u pcoll=beam.reshuffle()
,在Java中,您可以执行
reshuffled\u pcoll=original\u pcoll.apply(reshuffle.viarrandomkey())