Google cloud platform 为CloudSQL到BigQuery使用正确的数据管道

Google cloud platform 为CloudSQL到BigQuery使用正确的数据管道,google-cloud-platform,data-pipeline,Google Cloud Platform,Data Pipeline,我对整个数据工程都是新手,而我把这件事作为我的论文项目,所以请容忍我 我目前正在为电池存储系统开发一个大数据平台,该系统已经有CloudSQL服务,每15秒收集一次数据(因此它已经在GCP环境中)。我的工作是在每次输入数据时复制它们并传输到BIGQUERY(包括使用Dataprep准备数据),然后将其实现到机器学习 我已经找到了几种方法,其中一种使用数据流,尝试过一次,但都是手工完成的。使用jdbc查询作业。为了满足我的需求(定期运行作业),建议我使用CloudComposer 另一方面,我得到

我对整个数据工程都是新手,而我把这件事作为我的论文项目,所以请容忍我

我目前正在为电池存储系统开发一个大数据平台,该系统已经有CloudSQL服务,每15秒收集一次数据(因此它已经在GCP环境中)。我的工作是在每次输入数据时复制它们并传输到BIGQUERY(包括使用Dataprep准备数据),然后将其实现到机器学习

我已经找到了几种方法,其中一种使用数据流,尝试过一次,但都是手工完成的。使用
jdbc查询作业。为了满足我的需求(定期运行作业),建议我使用CloudComposer

另一方面,我得到了另一个使用PubSub的源代码,它将作业触发到数据流。后一种方法似乎更有希望,但最好同时了解这两个世界。任何建议都肯定会有帮助…

您可以使用调度程序设置管道(使用Cloud composer),这比数据流简单得多。气流实例中有两个通道

另一种方法是将云调度器与Pub/Sub和云功能结合使用


为了提高效率,我建议您避免使用云编写器和数据流。您可以使用直接从BigQuery请求云SQL(如果您使用MySQL或PostgreSQL引擎)

所以,执行你的命令

  • 请求到您的云SQL数据库中
  • 使用SQL语言执行数据清理/转换
  • 将数据放入BigQuery
所有这些都在一个请求中

INSERT INTO <BQ TABLE>
SELECT <Your transform/projection>
FROM EXTERNAL_QUERY(connection_id, <SELECT your more recent data>);
插入到
挑选
来自外部查询(连接id,);

需要安排吗?这是否回答了您的问题?谢谢你的回答。然而,据我所知,联邦查询的刷新时间限制为15分钟。或者有没有什么可能的方法把他们推到一个较低的周期?你说的15分钟刷新是什么?记录在哪里?