如何将一个Hadoop集群中的数据复制到另一个Hadoop集群?

如何将一个Hadoop集群中的数据复制到另一个Hadoop集群?,hadoop,Hadoop,我是Apache Hadoop的新手。我们有一个Hadoop集群[1],其中填充了一些数据。还有另一个Hadoop集群[2]没有数据。将数据从[1]复制到[2]的最简单也是最首选的方法是什么?您可以使用DistCp(分布式复制),它是一种允许您在群集之间或从/到不同文件系统(如S3或FTP服务器)复制数据的工具 必须指定从外部群集复制数据的绝对路径:hdfs://OtherClusterNN:port/path 此工具启动MapReduce作业,从Hadoop文件系统库(如HDFS、FTP、S

我是Apache Hadoop的新手。我们有一个Hadoop集群[1],其中填充了一些数据。还有另一个Hadoop集群[2]没有数据。将数据从[1]复制到[2]的最简单也是最首选的方法是什么?

您可以使用DistCp(分布式复制),它是一种允许您在群集之间或从/到不同文件系统(如S3或FTP服务器)复制数据的工具

必须指定从外部群集复制数据的绝对路径:hdfs://OtherClusterNN:port/path

此工具启动MapReduce作业,从Hadoop文件系统库(如HDFS、FTP、S3、AZURE,最新版本等)中的任何可用源并行复制数据

要从不同版本的hadoop复制数据,而不是使用HDFS协议,您必须从其中一个版本使用HftpFileSystem。

您可以使用DistCp(分布式复制),它是一种允许您在集群之间或从/到不同文件系统(如S3或FTP服务器)复制数据的工具

必须指定从外部群集复制数据的绝对路径:hdfs://OtherClusterNN:port/path

此工具启动MapReduce作业,从Hadoop文件系统库(如HDFS、FTP、S3、AZURE,最新版本等)中的任何可用源并行复制数据


要从不同版本的hadoop复制数据,而不是使用HDFS协议,您必须从其中一个版本使用HftpFileSystem。

这样。。我们不需要担心2台服务器的任何内部配置(例如:节点数)和表结构等吗?与HDFS的通信总是从URL中的主机NameNode开始(hdfs://NameNode:port/path). NameNode是跟踪集群中所有可用数据节点和每个HDFS块位置的用户。你不需要手工处理。在客户端收到每个块的位置后,它将能够直接联系数据节点以检索数据。但是,如果两个群集都有不同的HDFS版本,则两个群集将无法运行,HDFS版本不保证向后兼容性。本例中的解决方案是使用HftpFileSystem从源代码读取,因为此API仅用于读取。此API保修版本之间的兼容性能否添加移动数据所需输入的命令?以这种方式。。我们不需要担心2台服务器的任何内部配置(例如:节点数)和表结构等吗?与HDFS的通信总是从URL中的主机NameNode开始(hdfs://NameNode:port/path). NameNode是跟踪集群中所有可用数据节点和每个HDFS块位置的用户。你不需要手工处理。在客户端收到每个块的位置后,它将能够直接联系数据节点以检索数据。但是,如果两个群集都有不同的HDFS版本,则两个群集将无法运行,HDFS版本不保证向后兼容性。本例中的解决方案是使用HftpFileSystem从源代码读取,因为此API仅用于读取。此API保修版本之间的兼容性能否添加移动数据所需输入的命令?