Pandas 如何在apache beam中使用熊猫?

Pandas 如何在apache beam中使用熊猫?,pandas,join,google-cloud-dataflow,apache-beam,Pandas,Join,Google Cloud Dataflow,Apache Beam,如何在apachebeam中实现Pandas? 我无法对多列执行左联接,并且PCollection不支持sql查询。甚至apachebeam文档的框架也不正确。我检查了,但在ApacheBeam中找不到任何类型的Panda实现。 有人能告诉我想要的链接吗?pandas用于Python 2.x。在撰写本文时,工作人员已经预装了pandas v0.18.1版本,因此您不应该对此有任何问题。StackOverflow不接受您要求社区向您提供外部文档和/或教程的答案,因此,您可能应该首先自己尝试一个实现

如何在apachebeam中实现Pandas? 我无法对多列执行左联接,并且PCollection不支持sql查询。甚至apachebeam文档的框架也不正确。我检查了,但在ApacheBeam中找不到任何类型的Panda实现。 有人能告诉我想要的链接吗?

pandas
用于Python 2.x。在撰写本文时,工作人员已经预装了
pandas v0.18.1
版本,因此您不应该对此有任何问题。StackOverflow不接受您要求社区向您提供外部文档和/或教程的答案,因此,您可能应该首先自己尝试一个实现,然后回来提供更多信息,说明什么是/没有失败,以及在遇到错误之前您取得了什么成就


在任何情况下,如果您想要实现的是左连接,那么您也可以查看
CoGroupByKey
转换类型,该类型记录在中。它用于使用公共键类型执行多个
PCollection
s的关系联接。在同一页中,您将能够找到一些示例,它们使用
CoGroupByKey
ParDo
连接多个数据对象的内容。

这里有一些混淆

pandas
是“受支持的”,即您可以使用
pandas
库,使用方式与不使用Apache Beam时相同,也可以使用Beam管道中的任何其他库,只要指定适当的依赖项。它也是“受支持的”,因为默认情况下它被捆绑为依赖项,所以您不必自己指定它。例如,您可以编写一个
DoFn
,对每个元素使用
pandas
执行一些计算;每个单元的单独计算,由梁在所有单元上并行执行

Apache Beam目前没有提供与它的特殊集成,因此不支持它,例如,您不能将
PCollection
用作数据帧,反之亦然。
PCollection
在物理上不包含任何数据(这对于流式管道应该特别清楚)-它只是Beam执行计划中的占位符节点


也就是说,一个类似于pandas的API来处理Beam
PCollections
无疑是一个好主意,它可以简化许多现有的
pandas
用户学习Beam的过程,但我认为目前还没有人致力于实现这一点。然而,Beam社区目前正在讨论将模式添加到PCollections的想法,这是朝着这个方向迈出的一步。

除了直接从DoFns使用Pandas之外,Beam现在有了一个API,可以将PCollections作为数据帧进行操作。有关更多详细信息,请参阅。

如果Panda dataframes不能在Apache beam中使用,那么为什么在gcp文档中指定了它?将Panda管道连接到PCollections将是一个很好的功能@eilalan:没错,这就是我要找的,你能不能用一个示例代码来演示一下,因为我是apache beam的新手,所以我只是想知道如何将pandas管道传输到PCollection。对不起,我不明白你在问什么。beam支持类似的操作,但如上所述,没有为它们提供类似pandas的接口。如果这是您的客户机所请求的,那么您需要自己在Beam API.FWIW上实现它,这是Beam的一部分。