Google cloud dataflow 如何在apachebeam中实现groupby(column1,column2)

Google cloud dataflow 如何在apachebeam中实现groupby(column1,column2),google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我需要帮助在python中为下面的Spark sql代码编写类似的beam代码 count_mnm_df = (mnm_df .select("State", "Color", "Count") .groupBy("State", "Color") .agg(count("Count").alias("Total"))

我需要帮助在python中为下面的Spark sql代码编写类似的beam代码

count_mnm_df = (mnm_df
     .select("State", "Color", "Count") 
     .groupBy("State", "Color") 
     .agg(count("Count").alias("Total")) 
     .orderBy("Total", ascending=False)

到上面的最直接的映射可能是beamsql。有关更多信息,请参阅。请参阅相应的Python转换,该转换还包含有关用法的信息。请注意,对PythonSDK的支持是通过Beam的跨语言转换支持实现的,这是相对较新的

您也可以考虑使用相同的计算来编写一个束管道。

请注意,Beam不保证
PCollection
元素的顺序