Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
hadoop的copyFromLocal中复制的处理_Hadoop - Fatal编程技术网

hadoop的copyFromLocal中复制的处理

hadoop的copyFromLocal中复制的处理,hadoop,Hadoop,hadoop的copyFromLocal中的复制是如何处理的? 如果复制因子大于1,与复制因子=1相比,copyFromLocal会更慢吗?是的,我认为会更慢。copyFromLocal是一种写入操作。当复制因子>1时,hdfs将设置一个管道,将数据从客户端写入管道上的数据节点。这将需要更多的时间,而不仅仅是将数据写入一个datanode 有关write的更多详细信息。转到。我有一组每天可能扩展到150GB的文件,必须加载到HDFS中。有没有更好的方法将数据加载到HDFS中?使用Flume或Ka

hadoop的copyFromLocal中的复制是如何处理的?
如果复制因子大于1,与复制因子=1相比,copyFromLocal会更慢吗?

是的,我认为会更慢。copyFromLocal是一种写入操作。当复制因子>1时,hdfs将设置一个管道,将数据从客户端写入管道上的数据节点。这将需要更多的时间,而不仅仅是将数据写入一个datanode


有关write的更多详细信息。转到。

我有一组每天可能扩展到150GB的文件,必须加载到HDFS中。有没有更好的方法将数据加载到HDFS中?使用Flume或Kafka是否可以帮助我更快地将数据加载到HDFS中?如果您的数据在流中,Kafka应该是一个解决方案。Kafka似乎是专门做这类工作的。如果需要,可以将文件转换为流,但想知道我是否可以使用这种方法更快地加载数据,或者我应该使用copyFromLocal?我在这方面没有经验。也许copyFromLocal或put目前就足够了。