Hadoop 是否可以在两个Hdfs目录(单独的群集)之间使用distcp来区分文件(逗号分隔)?

Hadoop 是否可以在两个Hdfs目录(单独的群集)之间使用distcp来区分文件(逗号分隔)?,hadoop,hdfs,distcp,Hadoop,Hdfs,Distcp,我只需要distcp x个文件 找不到一个办法 一种方法是将其复制到一个临时目录上,然后distcp该目录。完成后,我可以删除该临时目录 单个distcp命令(针对每个文件)。这可能是痛苦的 不确定是否允许逗号分隔 有什么想法吗 提前感谢。您可以将所有文件作为源文件传递给DistCp命令 hadoop distcp hdfs://src_nn/var/log/spark/appHistory/<appId_1>/ \ hdfs://src_nn/var/l

我只需要distcp x个文件

找不到一个办法

  • 一种方法是将其复制到一个临时目录上,然后distcp该目录。完成后,我可以删除该临时目录

  • 单个distcp命令(针对每个文件)。这可能是痛苦的

  • 不确定是否允许逗号分隔

    有什么想法吗


    提前感谢。

    您可以将所有文件作为源文件传递给
    DistCp
    命令

    hadoop distcp hdfs://src_nn/var/log/spark/appHistory/<appId_1>/ \
                  hdfs://src_nn/var/log/spark/appHistory/<appId_2>/ \
                  ....
                  hdfs://src_nn/var/log/spark/appHistory/<appId_n>/ \
                  hdfs://dest_nn/target/
    

    如果它们有一个模式,您可以使用通配符。请向我们展示目录结构的示例。仅显示应用程序目录。想象一下spark应用程序历史文件/var/log/spark/appHistory/。我一次只需要一把。所以通配符不是很有用。忘记回复了。但这帮我省去了很多麻烦。在一个系统中使用此技巧已经5个月了。作品谢谢@franklinsijodo我们需要为两个集群做
    kinit
    ,所以
    klist
    为两个集群显示两张票?
    hadoop distcp -f hdfs://src_nn/list_of_files hdfs://dest_nn/target/