将数据从SQLDB复制到hadoop中
我正在研究一个用例,在这个用例中,我们将把SQL数据库(600TB~100个表)中的数据转换成hadoop中的转换格式。我们没有在SQL数据库中启用日志。我们决定将数据复制为数据集市视图,并每周刷新此视图。复制的数据将每周擦除以进行重写 此SQL DB用于从datalake派生的报告目的。这个OLTP数据库是我们正在逐步更换的旧系统。每周删除复制的数据集,然后再次复制(刷新)将数据从SQLDB复制到hadoop中,hadoop,apache-kafka,architecture,apache-beam,debezium,Hadoop,Apache Kafka,Architecture,Apache Beam,Debezium,我正在研究一个用例,在这个用例中,我们将把SQL数据库(600TB~100个表)中的数据转换成hadoop中的转换格式。我们没有在SQL数据库中启用日志。我们决定将数据复制为数据集市视图,并每周刷新此视图。复制的数据将每周擦除以进行重写 此SQL DB用于从datalake派生的报告目的。这个OLTP数据库是我们正在逐步更换的旧系统。每周删除复制的数据集,然后再次复制(刷新) 80%的数据拷贝是直接拷贝,无需转换 20%的人进行了重新设计 我们确定了3种选择: 加工用气流+光束 ETL(in
- 80%的数据拷贝是直接拷贝,无需转换
- 20%的人进行了重新设计
我的想法——为了它们的价值:
以下绝对是一个观点 如果您正在构建一个新的分析平台,我很惊讶您正在使用Hadoop。Hadoop是一种传统技术,已被更现代、功能更强的云数据平台(Snowflake等)所取代
此外,Hadoop是一个尝试运行分析的可怕平台(它就像一个数据湖一样,在您决定如何处理数据时可以保存数据)。尝试在其上运行与数据分区方式不一致的查询会带来非常糟糕的性能(对于非平凡的数据集大小)。例如,如果您的事务是按日期划分的,那么运行查询以对上周的事务值求和将很快运行。但是,运行查询以对特定帐户(或帐户组)的事务进行求和将非常糟糕您真的打算每周删除并重新加载600TB的数据吗?从一周到另一周,数据集是否没有重叠?有多少数据转换——基本上是源表的直接副本还是基本的重新设计(OLTP到OLAP)?为什么要将数据从SQL DB移到Hadoop中?谢谢您的回答。此SQL DB用于从datalake派生的报告目的。这个OLTP数据库是我们正在逐步更换的旧系统。每周删除复制的数据集,然后再次复制(刷新)。80%的数据拷贝是直接的。20%的人进行了重新设计。