如何将一个Hadoop集群中的数据复制到另一个Hadoop集群？_Hadoop

如何将一个Hadoop集群中的数据复制到另一个Hadoop集群？

hadoop

如何将一个Hadoop集群中的数据复制到另一个Hadoop集群？,hadoop,Hadoop,我是Apache Hadoop的新手。我们有一个Hadoop集群[1]，其中填充了一些数据。还有另一个Hadoop集群[2]没有数据。将数据从[1]复制到[2]的最简单也是最首选的方法是什么？您可以使用DistCp（分布式复制），它是一种允许您在群集之间或从/到不同文件系统（如S3或FTP服务器）复制数据的工具必须指定从外部群集复制数据的绝对路径：hdfs://OtherClusterNN:port/path 此工具启动MapReduce作业，从Hadoop文件系统库（如HDFS、FTP、S

我是Apache Hadoop的新手。我们有一个Hadoop集群[1]，其中填充了一些数据。还有另一个Hadoop集群[2]没有数据。将数据从[1]复制到[2]的最简单也是最首选的方法是什么？

您可以使用DistCp（分布式复制），它是一种允许您在群集之间或从/到不同文件系统（如S3或FTP服务器）复制数据的工具

必须指定从外部群集复制数据的绝对路径：hdfs://OtherClusterNN:port/path

此工具启动MapReduce作业，从Hadoop文件系统库（如HDFS、FTP、S3、AZURE，最新版本等）中的任何可用源并行复制数据

要从不同版本的hadoop复制数据，而不是使用HDFS协议，您必须从其中一个版本使用HftpFileSystem。

您可以使用DistCp（分布式复制），它是一种允许您在集群之间或从/到不同文件系统（如S3或FTP服务器）复制数据的工具

必须指定从外部群集复制数据的绝对路径：hdfs://OtherClusterNN:port/path

此工具启动MapReduce作业，从Hadoop文件系统库（如HDFS、FTP、S3、AZURE，最新版本等）中的任何可用源并行复制数据

要从不同版本的hadoop复制数据，而不是使用HDFS协议，您必须从其中一个版本使用HftpFileSystem。

这样。。我们不需要担心2台服务器的任何内部配置（例如：节点数）和表结构等吗？与HDFS的通信总是从URL中的主机NameNode开始(hdfs://NameNode:port/path). NameNode是跟踪集群中所有可用数据节点和每个HDFS块位置的用户。你不需要手工处理。在客户端收到每个块的位置后，它将能够直接联系数据节点以检索数据。但是，如果两个群集都有不同的HDFS版本，则两个群集将无法运行，HDFS版本不保证向后兼容性。本例中的解决方案是使用HftpFileSystem从源代码读取，因为此API仅用于读取。此API保修版本之间的兼容性能否添加移动数据所需输入的命令？以这种方式。。我们不需要担心2台服务器的任何内部配置（例如：节点数）和表结构等吗？与HDFS的通信总是从URL中的主机NameNode开始(hdfs://NameNode:port/path). NameNode是跟踪集群中所有可用数据节点和每个HDFS块位置的用户。你不需要手工处理。在客户端收到每个块的位置后，它将能够直接联系数据节点以检索数据。但是，如果两个群集都有不同的HDFS版本，则两个群集将无法运行，HDFS版本不保证向后兼容性。本例中的解决方案是使用HftpFileSystem从源代码读取，因为此API仅用于读取。此API保修版本之间的兼容性能否添加移动数据所需输入的命令？