Google cloud platform 云数据流如何工作以及数据流作业如何管理_Google Cloud Platform_Google Cloud Dataflow

Google cloud platform 云数据流如何工作以及数据流作业如何管理

google-cloud-platform google-cloud-dataflow

Google cloud platform 云数据流如何工作以及数据流作业如何管理,google-cloud-platform,google-cloud-dataflow,Google Cloud Platform,Google Cloud Dataflow,我最近使用Dataflow对数据进行批处理，遇到了一个由于IO错误导致的管道中断（“IOError:设备上没有剩余空间”）工作节点上的磁盘扩展解决了问题，但要处理的数据量不是很大，磁盘不太可能耗尽因此，我想知道数据流是如何工作的，以便更好地了解事件我的问题如下云数据流的架构是什么？我想了解体系结构和文档以了解它数据流作业启动前的流是什么我猜管道和作业是在托管Kubernetes集群上管理的，作业是在用户的VM实例上执行的，因为数据流日志包括kubelet和docker日志如有任

我最近使用Dataflow对数据进行批处理，遇到了一个由于IO错误导致的管道中断（“IOError:设备上没有剩余空间”）

工作节点上的磁盘扩展解决了问题，但要处理的数据量不是很大，磁盘不太可能耗尽

因此，我想知道数据流是如何工作的，以便更好地了解事件

我的问题如下

云数据流的架构是什么？我想了解体系结构和文档以了解它
数据流作业启动前的流是什么

我猜管道和作业是在托管Kubernetes集群上管理的，作业是在用户的VM实例上执行的，因为数据流日志包括kubelet和docker日志

如有任何信息，将不胜感激

云数据流的体系结构是什么？

Google CloudDataflow是Apache Beam运行程序之一，它构建在Google Compute Engine（GCE）之上，也就是说，当您运行Dataflow作业时，它在GCE实例上执行。在启动作业期间，apachebeam-SDK安装在每个worker和您指定的其他库上，然后执行。对于数据流作业，您可以指定GCE虚拟机的类型以及硬盘的大小当然，根据数据处理的不同，虚拟机的工作人员数量可能会随时间而变化
还有一种叫做数据流洗牌的功能，可用于洗牌阶段，在GroupByKey等转换中，在托管服务上执行组合（当然底部总是有一些虚拟机，但这是隐藏的）而不是在数据流工作者虚拟机上。这就是洗牌可以显著地更快

数据流作业启动前的流程是什么？
如果您想了解数据流作业的流程，我建议您浏览此链接
其他信息
如果您想了解apachebeam的编程模型，只需单击并浏览一下即可
然后，谷歌云添加了一个新的多语言数据流（Runner v2）管道，该管道由新的、更快的体系结构实现。如果您想了解Runner v2，请单击并浏览它
请查找以下所有链接：

云数据流的体系结构是什么？
Google CloudDataflow是Apache Beam运行程序之一，它构建在Google Compute Engine（GCE）之上，也就是说，当您运行Dataflow作业时，它在GCE实例上执行。在启动作业期间，apachebeam-SDK安装在每个worker和您指定的其他库上，然后执行。对于数据流作业，您可以指定GCE虚拟机的类型以及硬盘的大小当然，根据数据处理的不同，虚拟机的工作人员数量可能会随时间而变化
还有一种叫做数据流洗牌的功能，可用于洗牌阶段，在GroupByKey等转换中，在托管服务上执行组合（当然底部总是有一些虚拟机，但这是隐藏的）而不是在数据流工作者虚拟机上。这就是洗牌可以显著地更快

数据流作业启动前的流程是什么？
如果您想了解数据流作业的流程，我建议您浏览此链接
其他信息
如果您想了解apachebeam的编程模型，只需单击并浏览一下即可
然后，谷歌云添加了一个新的多语言数据流（Runner v2）管道，该管道由新的、更快的体系结构实现。如果您想了解Runner v2，请单击并浏览它
请查找以下所有链接：

谢谢你提供的信息。看起来很有希望。我来看看。很高兴能帮助@yoyousei。谢谢你提供的信息。看起来很有希望。我来看看。很高兴能帮助@Yoyousei