Hadoop 级联框架与Talend等ETL工具
我们一直在使用级联框架来创建ETL 层叠产生的结果Hadoop 级联框架与Talend等ETL工具,hadoop,etl,talend,cascading,Hadoop,Etl,Talend,Cascading,我们一直在使用级联框架来创建ETL 层叠产生的结果 优化联接 并行运行作业 创建检查点 开发人员可以使用他们最喜欢的语言(java、ruby、scala、clojure) 单元测试 现在我们有两个选项可以将一些X ETL(成本很高)作业转换为hadoop作业 级联工作流 塔伦德·乔布斯 我的问题是 Talend使用pig、hive等组件创建作业。那么,我们在表演上有什么好处吗?或者塔伦德有没有即兴表演 就Talend而言,我们是否需要担心单元测试(哪个级联框架提供) 如果我们选择Talend而不
a. Data quality.
b. Data Profiling.
c. Data lineage, etc.
我需要从级联框架或Talend中进行选择。我不能回答你所有的问题,但我可以给你我的经验回报。 使用Talend开发比使用wark或本机语言开发效率更高,而且源代码最易于维护,因为组件经过了优化,并且工作的IDE非常清晰。调试功能很好,您可以进行分步调试,还可以生成源代码
对我来说,不便之处在于配置管理,Talend与许多分支机构的合作并不十分成功。从Chris K Wensel(Cascading的作者)那里得到了反馈