Google cloud dataflow 如何在apachebeam中实现groupby(column1,column2)
我需要帮助在python中为下面的Spark sql代码编写类似的beam代码Google cloud dataflow 如何在apachebeam中实现groupby(column1,column2),google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,我需要帮助在python中为下面的Spark sql代码编写类似的beam代码 count_mnm_df = (mnm_df .select("State", "Color", "Count") .groupBy("State", "Color") .agg(count("Count").alias("Total"))
count_mnm_df = (mnm_df
.select("State", "Color", "Count")
.groupBy("State", "Color")
.agg(count("Count").alias("Total"))
.orderBy("Total", ascending=False)
到上面的最直接的映射可能是beamsql。有关更多信息,请参阅。请参阅相应的Python转换,该转换还包含有关用法的信息。请注意,对PythonSDK的支持是通过Beam的跨语言转换支持实现的,这是相对较新的
您也可以考虑使用相同的计算来编写一个束管道。
请注意,Beam不保证PCollection
元素的顺序