使用Distcp在Hadoop中进行数据摄取

使用Distcp在Hadoop中进行数据摄取,hadoop,hdfs,flume,distcp,Hadoop,Hdfs,Flume,Distcp,我知道distcp用于集群间/集群内的数据传输。是否可以使用distcp将数据从本地文件系统摄取到HDFS。我知道你可以用file:///.... 指向HDFS之外的本地文件,但与簇间/簇内传输相比,其可靠性和速度有多快。Distcp是在hadoop集群内执行的mapreduce作业。从hadoop集群的角度来看,您的本地计算机不是本地文件系统。然后您无法使用本地文件系统和distcp。另一种方法是在您的计算机中配置一个hadoop集群可以读取的FTP服务器。性能取决于网络和使用的协议(使用ha

我知道distcp用于集群间/集群内的数据传输。是否可以使用distcp将数据从本地文件系统摄取到HDFS。我知道你可以用file:///....
指向HDFS之外的本地文件,但与簇间/簇内传输相比,其可靠性和速度有多快。

Distcp是在hadoop集群内执行的mapreduce作业。从hadoop集群的角度来看,您的本地计算机不是本地文件系统。然后您无法使用本地文件系统distcp。另一种方法是在您的计算机中配置一个hadoop集群可以读取的FTP服务器。性能取决于网络和使用的协议(使用hadoop的ftp具有非常差的性能)


使用hdfs dfs-put命令可以更好地处理少量数据,但它不能像distcp那样并行工作。

否。distcp只能用于以源和汇作为hdfs传输数据。