Sql server 如何使用流处理进行ETL_Sql Server_Apache Spark_Etl_Apache Flink_Business Intelligence

Sql server 如何使用流处理进行ETL

sql-server apache-spark apache-flink

Sql server 如何使用流处理进行ETL,sql-server,apache-spark,etl,apache-flink,business-intelligence,Sql Server,Apache Spark,Etl,Apache Flink,Business Intelligence,我有一个SQL server数据库，每天在其中插入/删除/更新数百万行。我应该提出一个ETL解决方案，将数据从该数据库传输到数据仓库。起初，我试图与CDC和SSIS合作，但我所在的公司需要一个更实时的解决方案。我做了一些研究，发现了流处理。我也找了Spark和Flink教程，但什么也没找到我的问题是我应该选择哪种流处理工具？我如何学习使用它？开源解决方案您可以使用Confluent Kafka集成工具使用加载时间戳跟踪插入和更新操作。这些将自动为您提供在数据库中插入或更新的实时数据。如果数据

我有一个SQL server数据库，每天在其中插入/删除/更新数百万行。我应该提出一个ETL解决方案，将数据从该数据库传输到数据仓库。起初，我试图与CDC和SSIS合作，但我所在的公司需要一个更实时的解决方案。我做了一些研究，发现了流处理。我也找了Spark和Flink教程，但什么也没找到

我的问题是我应该选择哪种流处理工具？我如何学习使用它？

开源解决方案您可以使用Confluent Kafka集成工具使用加载时间戳跟踪插入和更新操作。这些将自动为您提供在数据库中插入或更新的实时数据。如果数据库中有软删除，也可以使用加载时间戳和活动或非活动标志来跟踪。如果没有这样的标志，那么您需要提供一些逻辑，在那天更新哪个分区，并将整个分区发送到流中，这肯定是资源耗尽

有偿解决方案有一个叫做Strim CDC的付费工具，可以为您的系统提供实时响应