Hadoop 数据基础架构实施-最佳方法_Hadoop_Connection_Etl_Erp_Bigdata

Hadoop 数据基础架构实施-最佳方法

hadoop

Hadoop 数据基础架构实施-最佳方法,hadoop,connection,etl,erp,bigdata,Hadoop,Connection,Etl,Erp,Bigdata,作为POC的一部分，我需要构建一个数据基础架构，该基础架构可以从多个ERP源（SAP和Oracle）获取数据，并将其摄取到datalake或目标数据库。此外，我还需要连接许多表，并根据业务需要进行严格的列转换。考虑到长期解决方案和大量数据摄取（约10000000行），什么是明智的方法？最后，我将以视图或REST调用的形式在应用程序中使用这些数据。我需要考虑任何ETL工具来进行数据流任务吗？如果我正在考虑开源解决方案来实现这一点，那么我的方法是什么？我需要考虑像Hadoop这样的大数据解决方案的实

作为POC的一部分，我需要构建一个数据基础架构，该基础架构可以从多个ERP源（SAP和Oracle）获取数据，并将其摄取到datalake或目标数据库。此外，我还需要连接许多表，并根据业务需要进行严格的列转换。考虑到长期解决方案和大量数据摄取（约10000000行），什么是明智的方法？最后，我将以视图或REST调用的形式在应用程序中使用这些数据。我需要考虑任何ETL工具来进行数据流任务吗？如果我正在考虑开源解决方案来实现这一点，那么我的方法是什么？我需要考虑像Hadoop这样的大数据解决方案的实现吗？如何从头开始

谢谢大家!

在这被标记为“主要基于意见”之前，这是我的两分钱

您可以完全使用Hadoop生态系统工具并使用HDFS（Hadoop分布式文件系统）作为“容错”数据湖/数据仓库来实现这一点

我需要构建一个数据基础架构，它可以从多个ERP源（SAP和Oracle）获取数据，并将其摄取到datalake或目标数据库

我们提供了一种可以将整个表从关系数据库移动到HDFS的方法。它通常易于使用，并且只有很少的一组命令

此外，我还需要连接许多表，并根据业务需要进行严格的列转换

然后，您可以继续加载数据，其中有一个构建在HDFS之上的数据仓库系统。在查询和加载数据方面，它与RDBMS非常相似，并且附带了一组很好的转换

或者，如果您想提高标准，可以在配置单元中创建这些表，然后将这些表加载到中，在那里执行转换（和操作），然后将数据加载回配置单元（或使用Spark SQL的任何其他数据库）

这些都是开源的，并与Cloudera CDH一起打包进行测试。

谢谢！这肯定有助于构建解决方案。