Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 数据流用例(小型SQL查询)_Google Cloud Platform_Google Bigquery_Google Cloud Functions_Google Cloud Dataflow - Fatal编程技术网

Google cloud platform 数据流用例(小型SQL查询)

Google cloud platform 数据流用例(小型SQL查询),google-cloud-platform,google-bigquery,google-cloud-functions,google-cloud-dataflow,Google Cloud Platform,Google Bigquery,Google Cloud Functions,Google Cloud Dataflow,我们正在使用云函数转换BigQuery中的数据: -所有数据都在BigQuery中 -为了转换数据,我们只在BigQuery中使用SQL查询 -每个查询每天运行一次 -我们最大的SQL查询运行大约2到3分钟,但大多数查询运行不到30秒 -我们每天执行一次大约50个查询,而且这个数字还在增加 我们最初尝试对数据流执行相同的操作(BigQuery中的SQL查询),但是: -仅仅启动数据流大约需要10到15分钟 -它比我们的云函数更复杂 -当时,没有实现数据流SQL 每次我们与使用GCP的人(用户、培

我们正在使用云函数转换BigQuery中的数据: -所有数据都在BigQuery中 -为了转换数据,我们只在BigQuery中使用SQL查询 -每个查询每天运行一次 -我们最大的SQL查询运行大约2到3分钟,但大多数查询运行不到30秒 -我们每天执行一次大约50个查询,而且这个数字还在增加

我们最初尝试对数据流执行相同的操作(BigQuery中的SQL查询),但是: -仅仅启动数据流大约需要10到15分钟 -它比我们的云函数更复杂 -当时,没有实现数据流SQL

每次我们与使用GCP的人(用户、培训师或审核人员)交谈时,他们都建议使用数据流。 那么,在我们的用例中,我们是否错过了数据流的“魔力”?有没有办法让它在几秒钟而不是几分钟内启动

另外,如果我们在数据流中使用流,那么如何计算成本?我知道,在批量中,我们为我们使用的东西付费,但如果我们使用流媒体呢?它是否算作全职运行服务


感谢您的帮助

对于第一部分,BigQuery VS Dataflow,我在几周前与Google讨论过这一点,他们的建议很明确:

  • 当您可以用SQL表示转换,并且可以使用BigQuery()访问数据时,使用BigQuery总是更快、更便宜。即使请求很复杂
  • 对于所有其他用例,数据流是最推荐的。
    • 实时性(真正需要实时性,动态计算指标)
    • 当您需要访问外部API时(ML、外部服务等)
    • 当您需要深入到BigQuery以外的内容(Firestore、BigTable、Cloud SQL等)或从BigQuery无法访问的源读取数据时
是的,数据流在3分钟后开始,在3分钟后再次停止。很长。。。你要为这无用的时间付出代价


对于批处理,就像流式处理一样,您只需支付用于管道的计算引擎的数量(和大小)。数据流在您提供的边界中自动缩放。流式管道未缩放到0。如果您的PubSub中没有消息,您至少还有一个虚拟机可用,您需要为此付费。

谢谢,它完美地回答了我的问题!