Hadoop将cp替换为Distcp

Hadoop将cp替换为Distcp,hadoop,Hadoop,该过程将文件从一个hdfs位置复制到同一集群中的另一个位置。这很好,但是hadoop-cp需要时间。可以用同一集群的distcp替换它。或者是否有更好的解决方案来提高性能。根据文档,distcp可以在集群内以及克隆器之间复制数据: DistCp版本2(分布式副本)是一种用于大型应用程序的工具 集群间/集群内复制。(…)最常见的调用 DistCp是群集间副本: bash$hadoop distcphdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo 这将

该过程将文件从一个hdfs位置复制到同一集群中的另一个位置。这很好,但是hadoop-cp需要时间。可以用同一集群的distcp替换它。或者是否有更好的解决方案来提高性能。

根据文档,distcp可以在集群内以及克隆器之间复制数据:

DistCp版本2(分布式副本)是一种用于大型应用程序的工具 集群间/集群内复制。(…)最常见的调用 DistCp是群集间副本:

bash$hadoop distcphdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo

这将把nn1上/foo/bar下的名称空间扩展为临时名称空间 文件,将其内容划分到一组映射任务中,然后启动 在每个节点管理器上从nn1复制到nn2