Java 将wget与Hadoop一起使用?

Java 将wget与Hadoop一起使用?,java,hadoop,mapreduce,wget,Java,Hadoop,Mapreduce,Wget,我有一个数据集(~31GB,扩展名为.gz的压缩文件),它存在于web位置上,我想在它上运行我的Hadoop程序。该程序是对Hadoop附带的原始WordCount示例的轻微修改。在我的例子中,Hadoop安装在远程机器上(我通过ssh连接到该机器,然后运行我的作业)。问题是我无法将这个大数据集传输到远程计算机上的主目录(由于磁盘使用配额)。因此,我尝试搜索是否有方法使用wget获取数据集并直接将其传递到HDFS(而不保存到远程机器上的本地帐户),但没有成功。 这样的方式存在吗?还有什么其他的建

我有一个数据集(~31GB,扩展名为.gz的压缩文件),它存在于web位置上,我想在它上运行我的Hadoop程序。该程序是对Hadoop附带的原始WordCount示例的轻微修改。在我的例子中,Hadoop安装在远程机器上(我通过ssh连接到该机器,然后运行我的作业)。问题是我无法将这个大数据集传输到远程计算机上的主目录(由于磁盘使用配额)。因此,我尝试搜索是否有方法使用wget获取数据集并直接将其传递到HDFS(而不保存到远程机器上的本地帐户),但没有成功。 这样的方式存在吗?还有什么其他的建议可以让它工作吗


我已经尝试使用雅虎!使用Hadoop预先配置的VM,但速度太慢,而且由于数据集太大,内存不足。

请在此处查看答案:

您可以通过管道将数据从wget传输到hdfs

但是,您将遇到一个问题-gz是不可拆分的,因此您将无法在其上运行分布式map/reduce


我建议您在本地下载该文件,将其解压缩,然后将其导入或拆分为多个文件并加载到hdfs中。

谢谢。我已经读过那个帖子了,这就是我特别提到.gz扩展的原因。但是,既然您提到.gz不是那样可拆分的(这回答了我的问题),我想我没有其他选择,只能先在本地下载该文件。