Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 下载280GB的百万首歌曲数据集_Hadoop_Download_Bigdata - Fatal编程技术网

Hadoop 下载280GB的百万首歌曲数据集

Hadoop 下载280GB的百万首歌曲数据集,hadoop,download,bigdata,Hadoop,Download,Bigdata,我想下载Infochimps上提供的完整的百万首歌曲数据集。我没有使用AWS,我的大学提供了一个集群,我想将数据下载到其中。我目前正在使用wget,但这将需要我很长时间才能下载。有没有更好的方法下载数据 还有没有办法将数据直接下载到Hadoop文件系统,而不是先下载到本地文件系统,然后使用-copyFromLocal复制到HDFS 请帮忙 谢谢 在我看来,最好的方法是使用像或这样的数据聚合工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接摄取到Had

我想下载Infochimps上提供的完整的百万首歌曲数据集。我没有使用AWS,我的大学提供了一个集群,我想将数据下载到其中。我目前正在使用wget,但这将需要我很长时间才能下载。有没有更好的方法下载数据

还有没有办法将数据直接下载到Hadoop文件系统,而不是先下载到本地文件系统,然后使用-copyFromLocal复制到HDFS

请帮忙


谢谢

在我看来,最好的方法是使用像或这样的数据聚合工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接摄取到Hadoop集群中。不过,您可能需要做一些工作,比如编写自定义源代码,将数据从源代码拉入集群


HTH

谢谢!我会调查水槽和Chukwa。