Apache spark ETL-SFTP服务器到配置单元表
我想建立一个数据管道来处理来自SFTP服务器的文件(不同格式),并将它们放入配置单元(由S3支持)。每个文件类型(例如CSV、文本等)都有一个规范,用于解释文件中的字段。我们需要将每个字段映射到目标配置单元架构中的一个字段。下面是一些很好的特性Apache spark ETL-SFTP服务器到配置单元表,apache-spark,bigdata,etl,Apache Spark,Bigdata,Etl,我想建立一个数据管道来处理来自SFTP服务器的文件(不同格式),并将它们放入配置单元(由S3支持)。每个文件类型(例如CSV、文本等)都有一个规范,用于解释文件中的字段。我们需要将每个字段映射到目标配置单元架构中的一个字段。下面是一些很好的特性 从SFTP服务器到配置单元的路径分为中间阶段,以便于调试和模块化 每个文件只处理一次。对该文件的重新处理应覆盖已处理文件中以前的记录 以下是我的想法: 阶段1将从SFTP读取文件并将其转储到S3中。此阶段将定期运行,并且非常轻量级。它会有重试之类的 阶段
为什么要投否决票?