Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ajax/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform Dataprep vs Dataflow vs Dataproc_Google Cloud Platform_Google Cloud Dataflow_Google Cloud Dataproc_Google Cloud Dataprep - Fatal编程技术网

Google cloud platform Dataprep vs Dataflow vs Dataproc

Google cloud platform Dataprep vs Dataflow vs Dataproc,google-cloud-platform,google-cloud-dataflow,google-cloud-dataproc,google-cloud-dataprep,Google Cloud Platform,Google Cloud Dataflow,Google Cloud Dataproc,Google Cloud Dataprep,要执行源数据准备、数据转换或数据清理,我们应该在什么情况下使用Dataprep vs Dataflow vs Dataproc?数据准备/转换/清理任务都可以被视为ETL过程,可以使用您提到的任何产品实现。旧答案涵盖了Dataflow vs Dataproc问题的基本知识,并包含了一个链接,该链接总结了在这三个问题中进行选择时应牢记的内容 简而言之,您应该考虑熟悉性(您是否已经使用Hadoop生态系统工具?波束编程模型?您愿意通过UI?)和期望的控制级别(DATAPROC允许对集群、数据流和DA

要执行源数据准备、数据转换或数据清理,我们应该在什么情况下使用Dataprep vs Dataflow vs Dataproc?

数据准备/转换/清理任务都可以被视为ETL过程,可以使用您提到的任何产品实现。旧答案涵盖了Dataflow vs Dataproc问题的基本知识,并包含了一个链接,该链接总结了在这三个问题中进行选择时应牢记的内容

简而言之,您应该考虑熟悉性(您是否已经使用Hadoop生态系统工具?波束编程模型?您愿意通过UI?)和期望的控制级别(DATAPROC允许对集群、数据流和DATAPRP的更多控制是完全管理的服务)。p> 更多精彩内容如下:


Dataproc和Dataflow都是谷歌云上的数据处理服务。这两个系统的共同点是,它们都可以处理批处理或流式数据。两者都有易于使用的工作流模板。 但以下是这两者的显著特征

Dataproc设计用于在集群上运行。这使得它与ApacheHadoop、hive和spark兼容。它创建集群的速度明显加快,并且可以在不中断运行作业的情况下自动扩展集群


如果您的数据没有使用spark或Hadoop实现,那么Dataflow会更好。它不在集群上运行,而是基于并行数据处理。由于此类数据在多个微处理器上进行分割处理以减少处理时间。

关于Dataproc的一个重要注意事项是,Dataprep提供数据清理并自动识别数据中的异常。它与云存储、BigTable和BigQuery集成

链接: