Hadoop apachesqoop的网络弹性

Hadoop apachesqoop的网络弹性,hadoop,hortonworks-data-platform,sqoop,Hadoop,Hortonworks Data Platform,Sqoop,我使用ApacheSqoop1.4.6(与HortonWorksHDP2.3包一起分发)在rdbms系统和hdfs之间导入和导出数据。我必须在生产环境中部署它,我想知道sqoop的网络弹性 假设我已经完成了大约90%的导入/导出工作,并且rdbms系统和我的hadoop集群之间出现了网络故障。由于sqoop在内部为此执行map/reduce作业,我猜该作业将完全失败,需要手动重新启动。在这方面,我有以下问题 sqoop是否对已导入/导出的数据执行清理 如果网络出现故障,sqoop是否会自动重新启

我使用ApacheSqoop1.4.6(与HortonWorksHDP2.3包一起分发)在rdbms系统和hdfs之间导入和导出数据。我必须在生产环境中部署它,我想知道sqoop的网络弹性

假设我已经完成了大约90%的导入/导出工作,并且rdbms系统和我的hadoop集群之间出现了网络故障。由于sqoop在内部为此执行map/reduce作业,我猜该作业将完全失败,需要手动重新启动。在这方面,我有以下问题

  • sqoop是否对已导入/导出的数据执行清理
  • 如果网络出现故障,sqoop是否会自动重新启动作业
  • 如果需要手动清理和重启,那么除了sqoop之外,人们通常使用哪些其他技术来实现网络恢复能力
  • 是否有其他版本的sqoop提供此功能
  • 非常感谢您的回答和建议


    谢谢

    从Jarek-Jarcec-Jecko的Sqoop用户邮件列表中收到了回复。把他的答案贴在这里,这样别人可能会觉得这很有用


    嗨,尼廷, 以下是我试图回答这个问题的方法:

    导入发生在临时目录中,如果作业无法完成,所有部分导入的数据将被删除。在出口方面,我们有很多较小的交易,因此如果失败,您将获得部分出口。但是,我们可以选择使用设计用于处理此部分导出问题的暂存表进行导出。我建议大家看看我们的用户指南[1]

    存在多个级别的并行和重试。如果一个任务失败,Hadoop将在默认情况下重新运行它3次,然后终止整个作业本身。我们不会重新启动整个作业,因为我们假设如果三次重试都没有帮助,那么再次重试就没有意义了

    贾切克

    链接: 1: **

      • Does sqoop perform a clean up of the already imported/exported data?
    
      • Does sqoop automatically restart the job in the case of network failure?