使用python处理来自bigquery的巨大数据集,将其加载回bigquery表
我在bigquery中有一个巨大的数据集,有5亿行57列。我想做很多过滤/转换/清理,而不是使用sql。我尝试使用dask/panda/python在本地mac中的dask数据帧中加载数据,进行转换,然后将数据推回到bigquery,以便其他总线可以使用它。将数据推回bigquery需要3个多小时。有没有其他方法或谷歌云服务可以利用?如果您在BigQuery中有大量数据,并希望对其执行转换,一个可能的解决方案是使用基于GCP的功能,称为数据流。数据流是基于ApacheBeam的Google托管服务。使用此技术,可以编写一个将BigQuery作为源和接收器的管道。Dataflow专门为超大容量数据处理而设计,可以自动并行化工作。此外,由于所有数据都在GCP中运行,因此在读取或写入数据时不会出现有意义的延迟,如果您通过Internet传输数据,可能会发现这一点。数据流允许程序员用Java或Python编写转换 根据您的转型,更高级别(但类似的情况)可能是使用谷歌的Dataprep服务。Dataprep提供了一种高级(业务级)机制来转换数据,无需任何编程。使用Dataprep,可以在更高的级别上描述转换,最终自动构建并运行Datalow作业使用python处理来自bigquery的巨大数据集,将其加载回bigquery表,python,google-cloud-platform,google-bigquery,bigdata,Python,Google Cloud Platform,Google Bigquery,Bigdata,我在bigquery中有一个巨大的数据集,有5亿行57列。我想做很多过滤/转换/清理,而不是使用sql。我尝试使用dask/panda/python在本地mac中的dask数据帧中加载数据,进行转换,然后将数据推回到bigquery,以便其他总线可以使用它。将数据推回bigquery需要3个多小时。有没有其他方法或谷歌云服务可以利用?如果您在BigQuery中有大量数据,并希望对其执行转换,一个可能的解决方案是使用基于GCP的功能,称为数据流。数据流是基于ApacheBeam的Google托管服