Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby/24.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
高内存计算机上的Hadoop单节点配置_Hadoop_Mapreduce_Hdfs - Fatal编程技术网

高内存计算机上的Hadoop单节点配置

高内存计算机上的Hadoop单节点配置,hadoop,mapreduce,hdfs,Hadoop,Mapreduce,Hdfs,我有一个ApacheHadoop 1.1.1的单节点实例,它在具有大量RAM和非常有限的可用磁盘空间的机器上具有默认参数值(参见和)。然后,我注意到这个Hadoop实例在映射任务期间浪费了大量磁盘空间。为了利用高RAM容量并减少磁盘空间使用,我应该注意哪些配置参数?您可以使用hdfs-site.xml中的dfs.datanode.du.reserved来指定不使用的磁盘空间量。我不知道hadoop是否能够弥补更高的内存使用率 但是,如果运行磁盘i/o密集型mapreduce作业,则会出现问题。我

我有一个ApacheHadoop 1.1.1的单节点实例,它在具有大量RAM和非常有限的可用磁盘空间的机器上具有默认参数值(参见和)。然后,我注意到这个Hadoop实例在映射任务期间浪费了大量磁盘空间。为了利用高RAM容量并减少磁盘空间使用,我应该注意哪些配置参数?

您可以使用hdfs-site.xml中的
dfs.datanode.du.reserved
来指定不使用的磁盘空间量。我不知道hadoop是否能够弥补更高的内存使用率


但是,如果运行磁盘i/o密集型mapreduce作业,则会出现问题。我认为任何数量的配置都不会对您有所帮助。

您可以使用几个mapred.*参数来压缩映射输出,这将大大减少存储映射器输出所需的磁盘空间。请参阅以获得一些好的指示

请注意,不同的压缩编解码器会有不同的问题(即GZip需要比LZO更多的CPU,但您必须自己安装LZO)。对Hadoop中的压缩问题进行了很好的讨论,尽管有点过时

您需要的RAM数量取决于您在map reduce作业中所做的工作,尽管您可以通过以下方式增加堆大小:

conf/mapred-site.xml mapred.map.child.java.opts     
有关此操作的更多详细信息,请参阅