Google cloud dataflow 数据流和小型数据集

Google cloud dataflow 数据流和小型数据集,google-cloud-dataflow,dataflow,Google Cloud Dataflow,Dataflow,我正在使用云数据流将数据加载到云SQL中。有些负载由小数据集上的简单转换组成。我注意到云数据流需要时间来分配虚拟机来进行处理。有没有办法为云数据流定义专用VM?还是每次运行作业时都必须启动虚拟机?云数据流对小数据集有用吗?或者只在我们必须处理大数据集时才使用它是可行的?数据流不能使用专用VM,更新管道可能需要全部的设置时间。从发布一系列流媒体作业开始,我发现它们需要约4分钟才能从PubSub开始。对于小型数据集,您可能会发现在一台计算机上,在与SQL数据库位于同一区域的GCE实例上使用本地运行程

我正在使用云数据流将数据加载到云SQL中。有些负载由小数据集上的简单转换组成。我注意到云数据流需要时间来分配虚拟机来进行处理。有没有办法为云数据流定义专用VM?还是每次运行作业时都必须启动虚拟机?云数据流对小数据集有用吗?或者只在我们必须处理大数据集时才使用它是可行的?

数据流不能使用专用VM,更新管道可能需要全部的设置时间。从发布一系列流媒体作业开始,我发现它们需要约4分钟才能从PubSub开始。对于小型数据集,您可能会发现在一台计算机上,在与SQL数据库位于同一区域的GCE实例上使用本地运行程序会更快

如果您使用的是小数据集,并且不打算实际扩展到非常大的数据集,那么您可能会使用shell命令来处理数据,比运行数据流作业更快、更便宜