Apache spark apachebeam中重划分的等价性
在spark中,如果我们必须重新排列数据,我们可以使用数据帧的重新分区。在ApacheBeam中,对pcollection执行相同操作的方法是什么 在PyparkApache spark apachebeam中重划分的等价性,apache-spark,pyspark,google-cloud-dataflow,apache-beam,apache-beam-internals,Apache Spark,Pyspark,Google Cloud Dataflow,Apache Beam,Apache Beam Internals,在spark中,如果我们必须重新排列数据,我们可以使用数据帧的重新分区。在ApacheBeam中,对pcollection执行相同操作的方法是什么 在Pypark new_df = df.repartition(4) 由此: 您可以插入一个改组步骤。重新洗牌可防止融合、检查数据并执行记录的重复数据消除。数据流支持重新洗牌,即使它在Apache Beam文档中被标记为不推荐使用 虽然我不确定这次改组是否会得到其他Beam公司的支持 java和对改组的进一步解释:问题是如何在ApacheBeam中
new_df = df.repartition(4)
由此:
您可以插入一个改组步骤。重新洗牌可防止融合、检查数据并执行记录的重复数据消除。数据流支持重新洗牌,即使它在Apache Beam文档中被标记为不推荐使用
虽然我不确定这次改组是否会得到其他Beam公司的支持
java和对改组的进一步解释:问题是如何在ApacheBeam中实现它?执行此操作的方法名是什么?它被称为
Reshuffle
,有些。您还可以实现自己的重新洗牌逻辑,例如:所有现有运行程序都支持重新洗牌。对于Python,您可以执行reshuffled\u pcoll=original\u pcoll=beam.reshuffle()
,在Java中,您可以执行reshuffled\u pcoll=original\u pcoll.apply(reshuffle.viarrandomkey())
。