Apache spark apachebeam中重划分的等价性_Apache Spark_Pyspark_Google Cloud Dataflow_Apache Beam_Apache Beam Internals

Apache spark apachebeam中重划分的等价性

apache-spark pyspark google-cloud-dataflow

Apache spark apachebeam中重划分的等价性,apache-spark,pyspark,google-cloud-dataflow,apache-beam,apache-beam-internals,Apache Spark,Pyspark,Google Cloud Dataflow,Apache Beam,Apache Beam Internals,在spark中，如果我们必须重新排列数据，我们可以使用数据帧的重新分区。在ApacheBeam中，对pcollection执行相同操作的方法是什么在Pypark new_df = df.repartition(4) 由此：您可以插入一个改组步骤。重新洗牌可防止融合、检查数据并执行记录的重复数据消除。数据流支持重新洗牌，即使它在Apache Beam文档中被标记为不推荐使用虽然我不确定这次改组是否会得到其他Beam公司的支持 java和对改组的进一步解释：问题是如何在ApacheBeam中

在spark中，如果我们必须重新排列数据，我们可以使用数据帧的重新分区。在ApacheBeam中，对pcollection执行相同操作的方法是什么

在Pypark

new_df = df.repartition(4)

由此：

您可以插入一个改组步骤。重新洗牌可防止融合、检查数据并执行记录的重复数据消除。数据流支持重新洗牌，即使它在Apache Beam文档中被标记为不推荐使用

虽然我不确定这次改组是否会得到其他Beam公司的支持

java和对改组的进一步解释：

问题是如何在ApacheBeam中实现它？执行此操作的方法名是什么？它被称为

Reshuffle

，有些。您还可以实现自己的重新洗牌逻辑，例如：所有现有运行程序都支持重新洗牌。对于Python，您可以执行

reshuffled\u pcoll=original\u pcoll=beam.reshuffle（）

，在Java中，您可以执行

reshuffled\u pcoll=original\u pcoll.apply（reshuffle.viarrandomkey（））

。