Google cloud platform 云数据流如何工作以及数据流作业如何管理
Google cloud platform 云数据流如何工作以及数据流作业如何管理,google-cloud-platform,google-cloud-dataflow,Google Cloud Platform,Google Cloud Dataflow,我最近使用Dataflow对数据进行批处理,遇到了一个由于IO错误导致的管道中断(“IOError:设备上没有剩余空间”)
工作节点上的磁盘扩展解决了问题,但要处理的数据量不是很大,磁盘不太可能耗尽
因此,我想知道数据流是如何工作的,以便更好地了解事件
我的问题如下
云数据流的架构是什么?我想了解体系结构和文档以了解它
数据流作业启动前的流是什么
我猜管道和作业是在托管Kubernetes集群上管理的,作业是在用户的VM实例上执行的,因为数据流日志包括kubelet和docker日志
如有任
我最近使用Dataflow对数据进行批处理,遇到了一个由于IO错误导致的管道中断(“IOError:设备上没有剩余空间”)
工作节点上的磁盘扩展解决了问题,但要处理的数据量不是很大,磁盘不太可能耗尽
因此,我想知道数据流是如何工作的,以便更好地了解事件
我的问题如下
- 云数据流的架构是什么?我想了解体系结构和文档以了解它
- 数据流作业启动前的流是什么
我猜管道和作业是在托管Kubernetes集群上管理的,作业是在用户的VM实例上执行的,因为数据流日志包括kubelet和docker日志
如有任何信息,将不胜感激
云数据流的体系结构是什么?
Google CloudDataflow是Apache Beam运行程序之一,它构建在Google Compute Engine(GCE)之上,也就是说,当您运行Dataflow作业时,它在GCE实例上执行。在启动作业期间,apachebeam-SDK安装在每个worker和您指定的其他库上,然后执行。对于数据流作业,您可以指定GCE虚拟机的类型以及硬盘的大小当然,根据数据处理的不同,虚拟机的工作人员数量可能会随时间而变化
还有一种叫做数据流洗牌的功能,可用于洗牌阶段,在GroupByKey等转换中,在托管服务上执行组合(当然底部总是有一些虚拟机,但这是隐藏的)而不是在数据流工作者虚拟机上。这就是洗牌可以显著地更快
数据流作业启动前的流程是什么?
如果您想了解数据流作业的流程,我建议您浏览此链接
其他信息
如果您想了解apachebeam的编程模型,只需单击并浏览一下即可
然后,谷歌云添加了一个新的多语言数据流(Runner v2)管道,该管道由新的、更快的体系结构实现。如果您想了解Runner v2,请单击并浏览它
请查找以下所有链接:
云数据流的体系结构是什么?
Google CloudDataflow是Apache Beam运行程序之一,它构建在Google Compute Engine(GCE)之上,也就是说,当您运行Dataflow作业时,它在GCE实例上执行。在启动作业期间,apachebeam-SDK安装在每个worker和您指定的其他库上,然后执行。对于数据流作业,您可以指定GCE虚拟机的类型以及硬盘的大小当然,根据数据处理的不同,虚拟机的工作人员数量可能会随时间而变化
还有一种叫做数据流洗牌的功能,可用于洗牌阶段,在GroupByKey等转换中,在托管服务上执行组合(当然底部总是有一些虚拟机,但这是隐藏的)而不是在数据流工作者虚拟机上。这就是洗牌可以显著地更快
数据流作业启动前的流程是什么?
如果您想了解数据流作业的流程,我建议您浏览此链接
其他信息
如果您想了解apachebeam的编程模型,只需单击并浏览一下即可
然后,谷歌云添加了一个新的多语言数据流(Runner v2)管道,该管道由新的、更快的体系结构实现。如果您想了解Runner v2,请单击并浏览它
请查找以下所有链接:
谢谢你提供的信息。看起来很有希望。我来看看。很高兴能帮助@yoyousei。谢谢你提供的信息。看起来很有希望。我来看看。很高兴能帮助@Yoyousei