Java 分布式ETL问题

Java 分布式ETL问题,java,etl,Java,Etl,寻找针对200多个分布式系统Windows、AS400、Linux等的ETL系统的任何建议 我们每个月都从所有客户那里收集数据,无论系统类型如何,然后将其带回,一起处理,然后将聚合解决方案发送给他们。我的任务是使这个系统自动化——任何关于如何稳健地实现这一点的建议,我真的不想重新发明轮子。我没有任何从中提取数据的系统,这使得这项任务更加困难,但可以安装客户端 我用Java创建了一个原型客户机/服务器体系结构,使用FTP进行传输,但我觉得它很脆弱。我应该注意到,不同系统的所有提取/转换代码都已经存

寻找针对200多个分布式系统Windows、AS400、Linux等的ETL系统的任何建议

我们每个月都从所有客户那里收集数据,无论系统类型如何,然后将其带回,一起处理,然后将聚合解决方案发送给他们。我的任务是使这个系统自动化——任何关于如何稳健地实现这一点的建议,我真的不想重新发明轮子。我没有任何从中提取数据的系统,这使得这项任务更加困难,但可以安装客户端

我用Java创建了一个原型客户机/服务器体系结构,使用FTP进行传输,但我觉得它很脆弱。我应该注意到,不同系统的所有提取/转换代码都已经存在于Java中,尽管是遗留的

我应该提到的是,目前我们每月提取一次数据,但每周都在进行


任何见解都是值得赞赏的。

我认为这将取决于项目将如何发展。如果这个项目将增加更多的需求,并且涉及到一些资金,那么ETL工具可能是个好主意

但是,如果您现在已经修复了报告的输出,并且它不打算去任何地方,那么定制ETL可能是值得的。原因是大多数ETL工具都有不同的输出格式、图表、文本文件等,并且使用该工具很方便,但归根结底,数据移动部分几乎是所有工具的通用部分。即使使用任何其他ETL工具,您也需要实现与现在相同的查询,另外还需要学习该工具。谁知道呢?某些工具可能涉及200多个站点的安装

最近,我们公司花了很多钱购买报表工具、服务器和人力资源,以构建良好的ETL,因为我们的内部ETL因速度慢和外观不专业而受到批评。您知道,它没有使用流行的ETL工具。这是一堆脚本命令。花了这么多钱,这个项目几乎陷入了死胡同

还有一件事。我不明白Java和FTP是如何参与这个过程的。 能否使用SQL直接连接客户系统中的数据库? 如果可以,使用SQL和存储过程总是比使用JAVA和FTP更好


希望能有所帮助。

听起来您需要的是企业服务总线。它是一个用于在多个不同系统之间进行转换、路由和消息交换的系统。您可以查看Mule或ApacheServiceMix。您的每个系统都可以是提供者和使用者,它们可以提供数据,您可以让您的处理引擎使用,然后将结果返回到ESB中,原始系统可以使用它。此外,FTP可能不是一个好的解决方案。像JMS这样的东西可能更适合,这取决于数据的类型和大小。谢谢。我们无法直接连接,因为我们集成了客户或潜在客户可能使用的任何数据库,因此Java和FTP。