Hadoop作为SSIS、Informatica等ETL工具的替代品?

Hadoop作为SSIS、Informatica等ETL工具的替代品?,hadoop,ssis,etl,data-warehouse,informatica,Hadoop,Ssis,Etl,Data Warehouse,Informatica,我对SSIS、Informatica有很好的了解,可以执行ETL流程并将数据加载到数据仓库中 但是我对Hadoop的了解还不够 我只是想知道 我们是否可以使用Hadoop作为ETL工具(如Informatica)的替代品,用于ETL流程? 在这里,我主要讨论的是关系表结构。 我知道hadoop可以用来从非结构化数据中提取信息 我们是否可以使用Hadoop作为ETL工具(如Informatica)的替代品,用于ETL流程? 是, 我们为什么不像许多人所说的那样,考虑一下英语教学呢() 从源中提取

我对SSIS、Informatica有很好的了解,可以执行ETL流程并将数据加载到数据仓库中

但是我对Hadoop的了解还不够

我只是想知道

我们是否可以使用Hadoop作为ETL工具(如Informatica)的替代品,用于ETL流程?


在这里,我主要讨论的是关系表结构。 我知道hadoop可以用来从非结构化数据中提取信息

我们是否可以使用Hadoop作为ETL工具(如Informatica)的替代品,用于ETL流程?

, 我们为什么不像许多人所说的那样,考虑一下英语教学呢()

从源中提取数据并加载到 目标数据库,然后转换并集成到所需的 格式。所有繁重的数据处理都在目标内部进行 数据库Hadoop是这里作为目标数据库的正确选择,很好 在处理大量数据时,只要我们有好的读取器 对于每个不同的文件格式


这不能按要求回答

Hadoop的强大功能来自synergy或MR和HDFS,使计算更接近数据。当您谈论使用Hadoop进行从OLTP关系表到DW的ETL时,Hadoop必须连接、提取数据并进行上传。让一群工人重击OLTP数据库以提取数据对ETL过程几乎没有帮助。即使你的T相位是复杂的,与从关系数据库中提取的E相比较,在雷达上也很少是一个小亮点

转换越复杂、IO密集且不依赖关系表,Hadoop的情况就越好


如果数据已经在HDFS中,Hadoop将是一个明显的选择。对于位于中央RDBMS中的数据,您需要证明Hadoop会/可能有帮助的原因。

您可以使用Hadoop Map Reduce进行验证、转换和分析,这是关键的ETL功能。下面是一些开源解决方案。它们将CSV作为输入,并生成CSV作为输出


在ETL之后,您可以使用Hive进行数据仓库和分析。另一个选择是使用黑斑羚

“由于数据位于一个中央RDBMS中,您需要证明Hadoop为什么会/能够提供帮助”——说得好!他希望在Hadoop不是目标存储的地方进行ETL。