Google cloud dataflow 谷歌数据流可以使用现有的虚拟机而不是临时创建的虚拟机吗？_Google Cloud Dataflow

Google cloud dataflow 谷歌数据流可以使用现有的虚拟机而不是临时创建的虚拟机吗？

google-cloud-dataflow

Google cloud dataflow 谷歌数据流可以使用现有的虚拟机而不是临时创建的虚拟机吗？,google-cloud-dataflow,Google Cloud Dataflow,与标题相同，Dataflow是否可以使用临时创建的VM实例而不是已经创建的实例？在询问OP请求的原因后，我将提供以下潜在答案：数据流背后的功能是在处理数据管道时实现高度并行。原始请求的背景故事是，当作为本地运行程序运行时，“某物”正在工作，但当使用数据流作为运行程序时，它没有按预期工作。这似乎导致OP思考“我们将使用本地运行程序运行数据流”。在我看来，这不是一个好主意。一种是使用localrunner进行开发和单元测试。本地跑步者不提供任何形式的水平缩放。。。它实际上只在一台机器上运行当在分

与标题相同，Dataflow是否可以使用临时创建的VM实例而不是已经创建的实例？

在询问OP请求的原因后，我将提供以下潜在答案：

数据流背后的功能是在处理数据管道时实现高度并行。原始请求的背景故事是，当作为本地运行程序运行时，“某物”正在工作，但当使用数据流作为运行程序时，它没有按预期工作。这似乎导致OP思考“我们将使用本地运行程序运行数据流”。在我看来，这不是一个好主意。一种是使用localrunner进行开发和单元测试。本地跑步者不提供任何形式的水平缩放。。。它实际上只在一台机器上运行

当在分布式数据流上运行管道作业时，它会根据需要创建尽可能多的工人，以便在多台机器上合理地分配作业。如果作业希望生成结果作为文件输出。。。然后问题就变成了“这些数据将被写到哪里？”。答案不能是相对于数据流作业运行位置的本地文件，因为根据定义，作业是跨多台机器运行的，并且没有将一台机器作为“输出”的概念。为了解决这个问题，数据应该输出到谷歌云存储，这是一个所有机器都可以看到的公共存储区域。OP提出的相关问题描述了将数据写入GCS而不是本地文件（在local runner中发现）的潜在问题，但我认为这是要解决的问题（即如何正确写入集中式GCS存储），而不是尝试使用单个VM。数据流对数据流处理引擎（worker）的性质提供零控制。它们在逻辑上是短暂的，并且“就在那里”处理数据流工作。

您好，欢迎来到Stack Overflow。这个问题背后更大的想法是什么（这可能有助于我们回答这个问题）。您希望现有计算资源存在以运行数据流作业的想法或原因是什么？有这个问题吗？您的答案是惊人的，而且非常清楚。那么，我是否应该将java和google存储中的特殊字符作为一个单独的问题来提问？是的。这将是我的建议。你可以问的问题没有限制，你应该感到自由并欢迎这样做。一般来说，在发布新问题之前，请尝试查找现有（重复）问题。当你发布新问题时，请尝试并思考潜在读者可能想要知道的信息，以提供最佳帮助。根据经验，我试着花3倍的时间写一个问题，比我期望读者阅读的时间多。写得好、详细/清晰的问题最受关注。谢谢！以下是这个问题的继续部分）-