Sql server 如何使用流处理进行ETL

Sql server 如何使用流处理进行ETL,sql-server,apache-spark,etl,apache-flink,business-intelligence,Sql Server,Apache Spark,Etl,Apache Flink,Business Intelligence,我有一个SQL server数据库,每天在其中插入/删除/更新数百万行。我应该提出一个ETL解决方案,将数据从该数据库传输到数据仓库。起初,我试图与CDC和SSIS合作,但我所在的公司需要一个更实时的解决方案。我做了一些研究,发现了流处理。我也找了Spark和Flink教程,但什么也没找到 我的问题是我应该选择哪种流处理工具?我如何学习使用它?开源解决方案 您可以使用Confluent Kafka集成工具使用加载时间戳跟踪插入和更新操作。这些将自动为您提供在数据库中插入或更新的实时数据。如果数据

我有一个SQL server数据库,每天在其中插入/删除/更新数百万行。我应该提出一个ETL解决方案,将数据从该数据库传输到数据仓库。起初,我试图与CDC和SSIS合作,但我所在的公司需要一个更实时的解决方案。我做了一些研究,发现了流处理。我也找了Spark和Flink教程,但什么也没找到

我的问题是我应该选择哪种流处理工具?我如何学习使用它?

开源解决方案 您可以使用Confluent Kafka集成工具使用加载时间戳跟踪插入和更新操作。这些将自动为您提供在数据库中插入或更新的实时数据。如果数据库中有软删除,也可以使用加载时间戳和活动或非活动标志来跟踪。 如果没有这样的标志,那么您需要提供一些逻辑,在那天更新哪个分区,并将整个分区发送到流中,这肯定是资源耗尽

有偿解决方案 有一个叫做Strim CDC的付费工具,可以为您的系统提供实时响应