Java 两个远程群集之间的DistCp容错

Java 两个远程群集之间的DistCp容错,java,hadoop,hdfs,distcp,Java,Hadoop,Hdfs,Distcp,我需要将的目录从一个集群复制到另一个具有类似HDF的集群(两者都是MAPR集群) 我计划使用DistCpjavaapi。但我想避免目录中文件的重复副本。我想知道这些操作是否容错?也就是说,如果由于连接中断而无法完全复制文件,则DistCp是否再次启动复制以正确复制文件?DistCp使用MapReduce进行分发、错误处理和恢复以及报告 请看 您可以使用-overwrite选项来避免重复,此外,您还可以选中update选项。如果网络连接失败,一旦其连接恢复,您可以使用覆盖选项重新启动 请参阅上述指

我需要将的目录从一个集群复制到另一个具有类似HDF的集群(两者都是MAPR集群)


我计划使用
DistCp
javaapi。但我想避免目录中文件的重复副本。我想知道这些操作是否容错?也就是说,如果由于连接中断而无法完全复制文件,则DistCp是否再次启动复制以正确复制文件?

DistCp
使用MapReduce进行分发、错误处理和恢复以及报告

请看

您可以使用-overwrite选项来避免重复,此外,您还可以选中update选项。如果网络连接失败,一旦其连接恢复,您可以使用覆盖选项重新启动


请参阅上述指南链接中提到的-update和-overwrite示例。

以下是重构distcp的链接:

正如“@RamPrasad G”所提到的,我想如果网络出现故障,您除了重做distcp之外别无选择

一些好的读物:

使用WebHDFS的Hadoop distcp网络故障

两个HA集群之间的Distcp

使用DistCp通过S3向Altiscale传输数据/从Altiscale传输数据

此页面有一个包含“重试”的shell脚本链接,这可能对您有所帮助


注:感谢原创作者。

@user2021147我的回答有用吗?如果是,请投票支持“业主接受”感谢SPL回复答案。这样更多的用户将有动力给出及时的答案