Python 从google云存储到biquery的ETL加载

Python 从google云存储到biquery的ETL加载,python,google-cloud-platform,google-bigquery,google-cloud-storage,dataflow,Python,Google Cloud Platform,Google Bigquery,Google Cloud Storage,Dataflow,我想从Google云存储上的数百个CSV文件中加载数据,并每天使用云数据流(最好使用python SDK)将它们附加到Bigquery上的单个表中。你能告诉我如何才能做到这一点吗 谢谢我们也可以通过Python来完成。 请查找下面的代码片段 def格式\u输出\u json(元素): """ :param元素:是csv中的行数据 :return:一个字典,其中键作为列名,值作为csv行中的真实数据。 :行索引:我在这里硬编码,但可以在运行时获取。 """ 行指数=[‘时间戳’、‘产品名称’、‘售

我想从Google云存储上的数百个CSV文件中加载数据,并每天使用云数据流(最好使用python SDK)将它们附加到Bigquery上的单个表中。你能告诉我如何才能做到这一点吗


谢谢

我们也可以通过Python来完成。 请查找下面的代码片段

def格式\u输出\u json(元素):
"""
:param元素:是csv中的行数据
:return:一个字典,其中键作为列名,值作为csv行中的真实数据。
:行索引:我在这里硬编码,但可以在运行时获取。
"""
行指数=[‘时间戳’、‘产品名称’、‘售出单位’、‘零售价格’]
行数据=元素。拆分(','))
dict1=dict()
对于范围内的i(len(行_数据)):
dict1[行索引[i]]=行数据[i]
返回[1]

问题到底是什么?是的,您可以使用PythonSDK for Dataflow加载到BigQuery表。或者(我的偏好)只需加载到BigQuery中,然后运行查询进行转换。嗨,Elliott!我想运行一个日常批处理作业,将数据从云存储中的csv文件加载到bigquery表中。我同意您的观点,但即使是直接加载,数据流代码也需要将csv行数据转换为JSON(键值对)以写入bigquery。使用apache beam(dataflow SDK)时,bigquery只接受键值对听起来很像。是的,但它是用java编写的。我更熟悉python。python有什么资源可以将pcollection转换为tablerow?