Google cloud dataflow 如何在apachebeam中实现groupby（column1，column2）_Google Cloud Dataflow_Apache Beam

Google cloud dataflow 如何在apachebeam中实现groupby（column1，column2）

google-cloud-dataflow

Google cloud dataflow 如何在apachebeam中实现groupby（column1，column2）,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我需要帮助在python中为下面的Spark sql代码编写类似的beam代码 count_mnm_df = (mnm_df .select("State", "Color", "Count") .groupBy("State", "Color") .agg(count("Count").alias("Total"))

我需要帮助在python中为下面的Spark sql代码编写类似的beam代码

count_mnm_df = (mnm_df
     .select("State", "Color", "Count") 
     .groupBy("State", "Color") 
     .agg(count("Count").alias("Total")) 
     .orderBy("Total", ascending=False)

到上面的最直接的映射可能是beamsql。有关更多信息，请参阅。请参阅相应的Python转换，该转换还包含有关用法的信息。请注意，对PythonSDK的支持是通过Beam的跨语言转换支持实现的，这是相对较新的

您也可以考虑使用相同的计算来编写一个束管道。

请注意，Beam不保证

PCollection

元素的顺序