Google cloud dataflow 谷歌数据流可以使用现有的虚拟机而不是临时创建的虚拟机吗?

Google cloud dataflow 谷歌数据流可以使用现有的虚拟机而不是临时创建的虚拟机吗?,google-cloud-dataflow,Google Cloud Dataflow,与标题相同,Dataflow是否可以使用临时创建的VM实例而不是已经创建的实例?在询问OP请求的原因后,我将提供以下潜在答案: 数据流背后的功能是在处理数据管道时实现高度并行。原始请求的背景故事是,当作为本地运行程序运行时,“某物”正在工作,但当使用数据流作为运行程序时,它没有按预期工作。这似乎导致OP思考“我们将使用本地运行程序运行数据流”。在我看来,这不是一个好主意。一种是使用localrunner进行开发和单元测试。本地跑步者不提供任何形式的水平缩放。。。它实际上只在一台机器上运行 当在分

与标题相同,Dataflow是否可以使用临时创建的VM实例而不是已经创建的实例?

在询问OP请求的原因后,我将提供以下潜在答案:

数据流背后的功能是在处理数据管道时实现高度并行。原始请求的背景故事是,当作为本地运行程序运行时,“某物”正在工作,但当使用数据流作为运行程序时,它没有按预期工作。这似乎导致OP思考“我们将使用本地运行程序运行数据流”。在我看来,这不是一个好主意。一种是使用localrunner进行开发和单元测试。本地跑步者不提供任何形式的水平缩放。。。它实际上只在一台机器上运行


当在分布式数据流上运行管道作业时,它会根据需要创建尽可能多的工人,以便在多台机器上合理地分配作业。如果作业希望生成结果作为文件输出。。。然后问题就变成了“这些数据将被写到哪里?”。答案不能是相对于数据流作业运行位置的本地文件,因为根据定义,作业是跨多台机器运行的,并且没有将一台机器作为“输出”的概念。为了解决这个问题,数据应该输出到谷歌云存储,这是一个所有机器都可以看到的公共存储区域。OP提出的相关问题描述了将数据写入GCS而不是本地文件(在local runner中发现)的潜在问题,但我认为这是要解决的问题(即如何正确写入集中式GCS存储),而不是尝试使用单个VM。数据流对数据流处理引擎(worker)的性质提供零控制。它们在逻辑上是短暂的,并且“就在那里”处理数据流工作。

您好,欢迎来到Stack Overflow。这个问题背后更大的想法是什么(这可能有助于我们回答这个问题)。您希望现有计算资源存在以运行数据流作业的想法或原因是什么?有这个问题吗?您的答案是惊人的,而且非常清楚。那么,我是否应该将java和google存储中的特殊字符作为一个单独的问题来提问?是的。这将是我的建议。你可以问的问题没有限制,你应该感到自由并欢迎这样做。一般来说,在发布新问题之前,请尝试查找现有(重复)问题。当你发布新问题时,请尝试并思考潜在读者可能想要知道的信息,以提供最佳帮助。根据经验,我试着花3倍的时间写一个问题,比我期望读者阅读的时间多。写得好、详细/清晰的问题最受关注。谢谢!以下是这个问题的继续部分)-