Google cloud dataflow 在数据流(python)中从http端点摄取数据

Google cloud dataflow 在数据流(python)中从http端点摄取数据,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,您知道有什么方法可以从Python编码的数据流管道中的HTTP端点接收数据吗 我当前的解决方案是安排对此端点的调用,该端点检索JSON格式的数据,将文件保存在磁盘上,并让管道接收它 我现在想做的是定期读取此HTTP端点的数据流。正如Andrew建议的那样,您可以尝试在转换(par do)中读取数据。然后数据可以在下游进行处理。我想您可以使用该模块在转换的实现中进行同步API调用。好的。不过我有一个问题,帕尔多的定义似乎是平行的。我应该(如果可能的话)指定不并行化api调用吗?如果您有少量数据,不

您知道有什么方法可以从Python编码的数据流管道中的HTTP端点接收数据吗

我当前的解决方案是安排对此端点的调用,该端点检索JSON格式的数据,将文件保存在磁盘上,并让管道接收它


我现在想做的是定期读取此HTTP端点的数据流。

正如Andrew建议的那样,您可以尝试在转换(par do)中读取数据。然后数据可以在下游进行处理。

我想您可以使用该模块在转换的实现中进行同步API调用。好的。不过我有一个问题,帕尔多的定义似乎是平行的。我应该(如果可能的话)指定不并行化api调用吗?如果您有少量数据,不并行化可能没问题(例如,在内存中的PCollection中发送1个键)。如果你有很多简单的并行方法,你也可以并行。例如,如果您正在读取一组文件名,则可以使用一个ParDo,该ParDo为每个键读取文件。这样,您就可以读取所有文件。如果您有办法知道您正在为此制作RPC的数据的哪个部分应该可以正常工作。如果没有,并行化可能会更困难。谢谢Lara,我会试试的!