Google cloud platform 谷歌数据流定价

Google cloud platform 谷歌数据流定价,google-cloud-platform,google-cloud-dataflow,Google Cloud Platform,Google Cloud Dataflow,我最近开始调查一个新项目的数据流(很棒的东西,到目前为止给我留下了深刻的印象!),但是今天早上我在检查开发控制台的账单页面时进行了一次现实检查 上周,我开始使用Dataflow,使用该插件通过Eclipse启动所有管道执行。到目前为止,我已经开展了以下42项工作: Streaming ----- Nov 17, 2015, 3:20:37 PM ----- 12 min 20 sec Streaming ----- Nov 17, 2015, 1:45:49 PM ----- 1 hr 36 m

我最近开始调查一个新项目的数据流(很棒的东西,到目前为止给我留下了深刻的印象!),但是今天早上我在检查开发控制台的账单页面时进行了一次现实检查

上周,我开始使用Dataflow,使用该插件通过Eclipse启动所有管道执行。到目前为止,我已经开展了以下42项工作:

Streaming ----- Nov 17, 2015, 3:20:37 PM ----- 12 min 20 sec
Streaming ----- Nov 17, 2015, 1:45:49 PM ----- 1 hr 36 min
Streaming ----- Nov 17, 2015, 1:25:25 PM ----- 21 min 0 sec
Streaming ----- Nov 17, 2015, 9:30:36 AM ----- 25 min 14 sec
Streaming ----- Nov 16, 2015, 4:44:09 PM ----- 29 min 27 sec
Streaming ----- Nov 16, 2015, 4:40:16 PM ----- 3 min 48 sec
Streaming ----- Nov 16, 2015, 4:37:32 PM ----- 3 min 33 sec
Streaming ----- Nov 16, 2015, 3:58:46 PM ----- 38 min 53 sec
Streaming ----- Nov 16, 2015, 3:46:18 PM ----- 12 min 59 sec
Streaming ----- Nov 16, 2015, 2:05:31 PM ----- 1 hr 41 min
Streaming ----- Nov 15, 2015, 4:28:06 PM ----- 21 hr 35 min
Streaming ----- Nov 13, 2015, 5:09:22 PM ----- 2 days 20 hr
Streaming ----- Nov 13, 2015, 4:30:34 PM ----- 2 days 21 hr
Streaming ----- Nov 13, 2015, 2:52:40 PM ----- 2 days 23 hr
Streaming ----- Nov 13, 2015, 2:42:27 PM ----- 10 min 20 sec
Streaming ----- Nov 13, 2015, 12:21:33 PM ----- 2 hr 19 min
Streaming ----- Nov 13, 2015, 12:12:24 PM ----- 9 min 24 sec
Streaming ----- Nov 13, 2015, 11:55:30 AM ----- 17 min 54 sec
Streaming ----- Nov 13, 2015, 11:51:49 AM ----- 4 min 28 sec
Streaming ----- Nov 13, 2015, 11:35:06 AM ----- 14 min 36 sec
Streaming ----- Nov 13, 2015, 11:32:51 AM ----- 3 min 2 sec
Streaming ----- Nov 13, 2015, 11:20:53 AM ----- 12 min 8 sec
Streaming ----- Nov 12, 2015, 2:11:08 PM ----- 20 hr 48 min
Streaming ----- Nov 12, 2015, 2:07:59 PM ----- 6 min 52 sec
Streaming ----- Nov 12, 2015, 1:24:33 PM ----- 50 min 15 sec
Streaming ----- Nov 12, 2015, 12:46:15 PM ----- 1 hr 28 min
Streaming ----- Nov 12, 2015, 12:43:59 PM ----- 1 hr 30 min
Streaming ----- Nov 12, 2015, 12:41:17 PM ----- 1 hr 33 min
Streaming ----- Nov 12, 2015, 12:36:44 PM ----- 5 min 32 sec
Streaming ----- Nov 12, 2015, 12:03:06 PM ----- 34 min 23 sec
Streaming ----- Nov 12, 2015, 11:55:00 AM ----- 8 min 55 sec
Streaming ----- Nov 12, 2015, 11:23:38 AM ----- 31 min 47 sec
Streaming ----- Nov 12, 2015, 11:07:25 AM ----- 16 min 30 sec
Streaming ----- Nov 12, 2015, 9:54:50 AM ----- 1 hr 11 min
Streaming ----- Nov 11, 2015, 5:10:36 PM ----- 16 hr 44 min
Streaming ----- Nov 11, 2015, 4:57:15 PM ----- 13 min 52 sec
Streaming ----- Nov 11, 2015, 4:48:52 PM ----- 3 min 59 sec
Streaming ----- Nov 11, 2015, 4:41:16 PM ----- 11 min 49 sec
Streaming ----- Nov 11, 2015, 4:32:01 PM ----- 21 min 6 sec
Batch ----- Nov 10, 2015, 3:36:09 PM ----- 1 min 37 sec
Batch ----- Nov 10, 2015, 2:41:28 PM ----- 1 min 48 sec
Batch ----- Nov 10, 2015, 2:37:17 PM ----- 1 min 39 sec
这只是一个使用少量数据的测试,所以没有什么比从PubSub获取一些元素来理解SDK和环境如何工作更疯狂的了

Google Compute  Dataflow Stream Processing VM running on Standard Intel N1 4 VCPU   51,192 Minutes  $140.78
Google Compute  Standard Intel N1 4 VCPU running in NA  51,192 Minutes  $170.64
(为了简化起见,我将忽略3个批处理作业,每个批处理作业的持续时间不到2分钟,它们与以下内容并不相关)

从所有这些中,有几个问题:

1) 我是不是在过去的时间里遗漏了什么?51192分钟是853.2小时,远远超过我所有作业执行时间的总和。我知道一个实例运行至少要花费10分钟,但即使这样,我仍然离51 192分钟相去甚远。考虑到持续时间,853.2小时x 11 GCEU x 0.015$/GCEU/小时=140.78$,这是账单中的一部分,但我想更好地了解如何计算总持续时间。编辑:51192分钟大约是我所有作业执行时间总和的3倍。这个系数3与我配置的3个工人有关吗

2) 是否可以配置管道使用的实例类型?对于我正在执行的那种测试,使用n1-standard-4实例对于我试图做的事情来说真是太过分了。这在Eclipse插件或控制台中是可配置的吗?编辑:找到了这个问题的答案


3) 我以前从未真正注意到,每次我开始工作时,都会有3名员工开始工作。我从未真正配置过与此相关的任何东西。我猜这是在Eclipse中创建运行配置时的默认工作人员数量?编辑:也找到了答案

感谢您尝试数据流--我们很高兴您喜欢它

  • 运行时间衡量GCE虚拟机的使用情况。正如您在编辑中提到的,3个工人=3个虚拟机,因此有一个与实际虚拟机时间相关联的系数3
  • 您可以设置
    --workerMachineType
    选项,如中所述
  • 3是与管道关联的默认工作人员数。它可以用
    --numWorkers
    明确指定,但这将阻止根据需要调整工人数量。如文件所述,您可以使用
    --maxNumWorkers
    来限制上限,同时允许自动缩放调整实际工作人数

  • 在开发过程中,您可能希望使用本地运行程序在您的机器上执行管道。听起来您正在测试的数据量很小,不需要在服务上运行的规模。您可以使用
    PubSubIO
    创建一个绑定的源代码,该源代码将通过调用或与本地运行程序一起工作。

    感谢您尝试数据流--我们很高兴您喜欢它

  • 运行时间衡量GCE虚拟机的使用情况。正如您在编辑中提到的,3个工人=3个虚拟机,因此有一个与实际虚拟机时间相关联的系数3
  • 您可以设置
    --workerMachineType
    选项,如中所述
  • 3是与管道关联的默认工作人员数。它可以用
    --numWorkers
    明确指定,但这将阻止根据需要调整工人数量。如文件所述,您可以使用
    --maxNumWorkers
    来限制上限,同时允许自动缩放调整实际工作人数

  • 在开发过程中,您可能希望使用本地运行程序在您的机器上执行管道。听起来您正在测试的数据量很小,不需要在服务上运行的规模。您可以使用
    PubSubIO
    创建一个绑定的源代码,它将通过调用或与本地运行程序一起工作。

    非常感谢,它确实证实了我的想法。同时,我能够找到配置实例类型和工作人员数量的参数。开始和当地的跑步者一起比赛,最后成功了。但是,如文档中所述,本地运行程序不与PubSubIO一起工作。本周末试用了它,但“没有注册PubsubIO.Read的评估员”。常规
    PubsubIO.Read与本地跑步者不兼容。如果您使用前面提到的
    maxNumRecords
    maxReadTime
    ,它应该可以工作,因为。非常感谢,它确实证实了我的想法。同时,我能够找到配置实例类型和工作人员数量的参数。开始和当地的跑步者一起比赛,最后成功了。但是,如文档中所述,本地运行程序不与PubSubIO一起工作。本周末试用了它,但“没有注册PubsubIO.Read的评估员”。常规
    PubsubIO.Read与本地跑步者不兼容。如果您使用前面提到的
    maxNumRecords
    maxReadTime
    ,它应该可以工作,因为。