Java 将wget与Hadoop一起使用？_Java_Hadoop_Mapreduce_Wget

Java 将wget与Hadoop一起使用？

java hadoop mapreduce

Java 将wget与Hadoop一起使用？,java,hadoop,mapreduce,wget,Java,Hadoop,Mapreduce,Wget,我有一个数据集（~31GB，扩展名为.gz的压缩文件），它存在于web位置上，我想在它上运行我的Hadoop程序。该程序是对Hadoop附带的原始WordCount示例的轻微修改。在我的例子中，Hadoop安装在远程机器上（我通过ssh连接到该机器，然后运行我的作业）。问题是我无法将这个大数据集传输到远程计算机上的主目录（由于磁盘使用配额）。因此，我尝试搜索是否有方法使用wget获取数据集并直接将其传递到HDFS（而不保存到远程机器上的本地帐户），但没有成功。这样的方式存在吗？还有什么其他的建

我有一个数据集（~31GB，扩展名为.gz的压缩文件），它存在于web位置上，我想在它上运行我的Hadoop程序。该程序是对Hadoop附带的原始WordCount示例的轻微修改。在我的例子中，Hadoop安装在远程机器上（我通过ssh连接到该机器，然后运行我的作业）。问题是我无法将这个大数据集传输到远程计算机上的主目录（由于磁盘使用配额）。因此，我尝试搜索是否有方法使用wget获取数据集并直接将其传递到HDFS（而不保存到远程机器上的本地帐户），但没有成功。这样的方式存在吗？还有什么其他的建议可以让它工作吗

我已经尝试使用雅虎！使用Hadoop预先配置的VM，但速度太慢，而且由于数据集太大，内存不足。

请在此处查看答案：

您可以通过管道将数据从wget传输到hdfs

但是，您将遇到一个问题-gz是不可拆分的，因此您将无法在其上运行分布式map/reduce

我建议您在本地下载该文件，将其解压缩，然后将其导入或拆分为多个文件并加载到hdfs中。

谢谢。我已经读过那个帖子了，这就是我特别提到.gz扩展的原因。但是，既然您提到.gz不是那样可拆分的（这回答了我的问题），我想我没有其他选择，只能先在本地下载该文件。