Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 级联框架与Talend等ETL工具_Hadoop_Etl_Talend_Cascading - Fatal编程技术网

Hadoop 级联框架与Talend等ETL工具

Hadoop 级联框架与Talend等ETL工具,hadoop,etl,talend,cascading,Hadoop,Etl,Talend,Cascading,我们一直在使用级联框架来创建ETL 层叠产生的结果 优化联接 并行运行作业 创建检查点 开发人员可以使用他们最喜欢的语言(java、ruby、scala、clojure) 单元测试 现在我们有两个选项可以将一些X ETL(成本很高)作业转换为hadoop作业 级联工作流 塔伦德·乔布斯 我的问题是 Talend使用pig、hive等组件创建作业。那么,我们在表演上有什么好处吗?或者塔伦德有没有即兴表演 就Talend而言,我们是否需要担心单元测试(哪个级联框架提供) 如果我们选择Talend而不

我们一直在使用级联框架来创建ETL

层叠产生的结果

  • 优化联接
  • 并行运行作业
  • 创建检查点
  • 开发人员可以使用他们最喜欢的语言(java、ruby、scala、clojure)
  • 单元测试
  • 现在我们有两个选项可以将一些X ETL(成本很高)作业转换为hadoop作业

  • 级联工作流
  • 塔伦德·乔布斯
  • 我的问题是

  • Talend使用pig、hive等组件创建作业。那么,我们在表演上有什么好处吗?或者塔伦德有没有即兴表演
  • 就Talend而言,我们是否需要担心单元测试(哪个级联框架提供)
  • 如果我们选择Talend而不是级联来创建作业(将X ETL转换为hadoop作业),那么它是一个不错的选择
  • 将X ETL转换为级联工作流需要创建给定X ETL中可用的所有组件,但这是一次性活动。然后,我们还需要考虑Talend Studio提供的其他功能,如:

    a. Data quality.
    b. Data Profiling.
    c. Data lineage, etc.
    
  • 就可维护性而言,级联作业管理得很好,有人能提供一些关于talend的信息吗
  • 底线是我正在创建一个从X ETL到hadoop作业的转换工具。
    我需要从级联框架或Talend中进行选择。

    我不能回答你所有的问题,但我可以给你我的经验回报。 使用Talend开发比使用wark或本机语言开发效率更高,而且源代码最易于维护,因为组件经过了优化,并且工作的IDE非常清晰。调试功能很好,您可以进行分步调试,还可以生成源代码


    对我来说,不便之处在于配置管理,Talend与许多分支机构的合作并不十分成功。

    从Chris K Wensel(Cascading的作者)那里得到了反馈