MySQL Binlog到BigQuery,什么';这是一个很好的复制设计吗?

MySQL Binlog到BigQuery,什么';这是一个很好的复制设计吗?,mysql,google-cloud-platform,google-bigquery,google-cloud-pubsub,change-data-capture,Mysql,Google Cloud Platform,Google Bigquery,Google Cloud Pubsub,Change Data Capture,为了运行(几乎实时)数据分析,我们开始将binlogs从生产数据库(update、insert、alter、create等…语句)流式传输到GCP上的发布/子主题。 我们希望在BigQuery中有相当多的生产表,您将如何复制这些表: 将binlog消息从表A流式传输到一个临时分区的BQ表“staging_A”,该表具有灵活的结构模式+具有定期执行BQ语句(我猜是行数+合并语句)的重复数据消除“staging_A”到“prod_A”的气流DAG 将binlog消息转换为INSERT/UPDATE

为了运行(几乎实时)数据分析,我们开始将binlogs从生产数据库(update、insert、alter、create等…语句)流式传输到GCP上的发布/子主题。 我们希望在BigQuery中有相当多的生产表,您将如何复制这些表:

  • 将binlog消息从表A流式传输到一个临时分区的BQ表“staging_A”,该表具有灵活的结构模式+具有定期执行BQ语句(我猜是行数+合并语句)的重复数据消除“staging_A”到“prod_A”的气流DAG
  • 将binlog消息转换为INSERT/UPDATE语句以进行某种直接复制,并避免使用(缓慢的)DAG
  • 还有其他选择吗

非常感谢您的帮助。

如何使用BigQuery中的数据?为了实时提供“什么”?@guillaumeblaquiere主要由许多仪表板使用(我们使用Metabase for BI)。谢谢你的见解好的,我的问题是:它真的是实时的还是小批量的(例如每15分钟一次)是可以接受的?此外,每天/分/秒有多少个事件?15分钟的批处理对于bi来说已经足够了。每秒大约有500个事件(更新和插入)。是否应用insert/update as SQL命令?或者您会解析bin日志的内容来加载(批处理或流式处理)数据吗?BigQuery中的数据将如何使用?为了实时提供“什么”?@guillaumeblaquiere主要由许多仪表板使用(我们使用Metabase for BI)。谢谢你的见解好的,我的问题是:它真的是实时的还是小批量的(例如每15分钟一次)是可以接受的?此外,每天/分/秒有多少个事件?15分钟的批处理对于bi来说已经足够了。每秒大约有500个事件(更新和插入)。是否应用insert/update as SQL命令?或者,您会解析bin日志的内容以加载(批处理或流式处理)数据吗?