Google cloud platform 云数据流如何工作以及数据流作业如何管理

Google cloud platform 云数据流如何工作以及数据流作业如何管理,google-cloud-platform,google-cloud-dataflow,Google Cloud Platform,Google Cloud Dataflow,我最近使用Dataflow对数据进行批处理,遇到了一个由于IO错误导致的管道中断(“IOError:设备上没有剩余空间”) 工作节点上的磁盘扩展解决了问题,但要处理的数据量不是很大,磁盘不太可能耗尽 因此,我想知道数据流是如何工作的,以便更好地了解事件 我的问题如下 云数据流的架构是什么?我想了解体系结构和文档以了解它 数据流作业启动前的流是什么 我猜管道和作业是在托管Kubernetes集群上管理的,作业是在用户的VM实例上执行的,因为数据流日志包括kubelet和docker日志 如有任

我最近使用Dataflow对数据进行批处理,遇到了一个由于IO错误导致的管道中断(“IOError:设备上没有剩余空间”)

工作节点上的磁盘扩展解决了问题,但要处理的数据量不是很大,磁盘不太可能耗尽

因此,我想知道数据流是如何工作的,以便更好地了解事件

我的问题如下

  • 云数据流的架构是什么?我想了解体系结构和文档以了解它
  • 数据流作业启动前的流是什么
我猜管道和作业是在托管Kubernetes集群上管理的,作业是在用户的VM实例上执行的,因为数据流日志包括kubelet和docker日志

如有任何信息,将不胜感激

  • 云数据流的体系结构是什么?
  • Google CloudDataflow是Apache Beam运行程序之一,它构建在Google Compute Engine(GCE)之上,也就是说,当您运行Dataflow作业时,它在GCE实例上执行。在启动作业期间,apachebeam-SDK安装在每个worker和您指定的其他库上,然后执行。对于数据流作业,您可以指定GCE虚拟机的类型以及硬盘的大小当然,根据数据处理的不同,虚拟机的工作人员数量可能会随时间而变化

    还有一种叫做数据流洗牌的功能,可用于洗牌阶段,在GroupByKey等转换中,在托管服务上执行组合(当然底部总是有一些虚拟机,但这是隐藏的)而不是在数据流工作者虚拟机上。这就是洗牌可以显著地更快

  • 数据流作业启动前的流程是什么?
  • 如果您想了解数据流作业的流程,我建议您浏览此链接

    其他信息

    如果您想了解apachebeam的编程模型,只需单击并浏览一下即可

    然后,谷歌云添加了一个新的多语言数据流(Runner v2)管道,该管道由新的、更快的体系结构实现。如果您想了解Runner v2,请单击并浏览它

    请查找以下所有链接:

  • 云数据流的体系结构是什么?
  • Google CloudDataflow是Apache Beam
    运行程序之一,它构建在Google Compute Engine(GCE)之上,也就是说,当您运行Dataflow作业时,它在GCE实例上执行。在启动作业期间,apachebeam-SDK安装在每个worker和您指定的其他库上,然后执行。对于数据流作业,您可以指定GCE虚拟机的类型以及硬盘的大小当然,根据数据处理的不同,虚拟机的工作人员数量可能会随时间而变化

    还有一种叫做数据流洗牌的功能,可用于洗牌阶段,在GroupByKey等转换中,在托管服务上执行组合(当然底部总是有一些虚拟机,但这是隐藏的)而不是在数据流工作者虚拟机上。这就是洗牌可以显著地更快

  • 数据流作业启动前的流程是什么?
  • 如果您想了解数据流作业的流程,我建议您浏览此链接

    其他信息

    如果您想了解apachebeam的编程模型,只需单击并浏览一下即可

    然后,谷歌云添加了一个新的多语言数据流(Runner v2)管道,该管道由新的、更快的体系结构实现。如果您想了解Runner v2,请单击并浏览它

    请查找以下所有链接:


  • 谢谢你提供的信息。看起来很有希望。我来看看。很高兴能帮助@yoyousei。谢谢你提供的信息。看起来很有希望。我来看看。很高兴能帮助@Yoyousei