Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 对于MapReduce作业,使用1台机器和4个核心是否与使用4台机器和1个核心相同?_Hadoop_Mapreduce_Google Cloud Platform - Fatal编程技术网

Hadoop 对于MapReduce作业,使用1台机器和4个核心是否与使用4台机器和1个核心相同?

Hadoop 对于MapReduce作业,使用1台机器和4个核心是否与使用4台机器和1个核心相同?,hadoop,mapreduce,google-cloud-platform,Hadoop,Mapreduce,Google Cloud Platform,我正在谷歌云上创建一个集群,他们让我选择要使用多少台机器,每台机器上应该有多少内核。如果我想运行MapReduce作业,要求8台机器各有一个内核与要求2台机器各有4个内核之间有实际区别吗?您在标题和正文中提出的问题是不同的 当在4x1core和1x4core之间进行选择时,后者具有数据局部性的优势——映射器和还原器之间没有数据传输,所有数据都在同一台机器上 另一个要考虑的重要因素是RAM的数量。如果你必须在1台16GB内存的机器和8台2GB内存的机器之间进行选择,你最好选择第一个选项,因为有些算

我正在谷歌云上创建一个集群,他们让我选择要使用多少台机器,每台机器上应该有多少内核。如果我想运行MapReduce作业,要求8台机器各有一个内核与要求2台机器各有4个内核之间有实际区别吗?

您在标题和正文中提出的问题是不同的

当在4x1core和1x4core之间进行选择时,后者具有数据局部性的优势——映射器和还原器之间没有数据传输,所有数据都在同一台机器上

另一个要考虑的重要因素是RAM的数量。如果你必须在1台16GB内存的机器和8台2GB内存的机器之间进行选择,你最好选择第一个选项,因为有些算法需要在内存中加载大量的内容,如果内存很小,你将无法运行它们

最后要记住的一点是:集群中所有机器的配置必须相同,否则有些机器会提前完成,等待速度较慢的机器。如果集群将增长,请立即选择最合适的配置


长话短说:在大多数情况下,更高层的机器将表现得更好。如果可以,请选择它们。

标题和正文中的问题是不同的

当在4x1core和1x4core之间进行选择时,后者具有数据局部性的优势——映射器和还原器之间没有数据传输,所有数据都在同一台机器上

另一个要考虑的重要因素是RAM的数量。如果你必须在1台16GB内存的机器和8台2GB内存的机器之间进行选择,你最好选择第一个选项,因为有些算法需要在内存中加载大量的内容,如果内存很小,你将无法运行它们

最后要记住的一点是:集群中所有机器的配置必须相同,否则有些机器会提前完成,等待速度较慢的机器。如果集群将增长,请立即选择最合适的配置


长话短说:在大多数情况下,更高层的机器将表现得更好。如果可以,请选择。

谢谢您提供的信息,这非常有帮助!此外,如果机器有四个核心,那么在同一台机器上运行四个映射器也是可能的?我需要做什么特别的事情才能使用所有的内核,或者Hadoop会自动完成吗?@Jessica是的,这是可能的。通常在作业开始之前声明映射器资源,所以可以说映射器默认需要2gb ram和1个内核,如果hadoop有16gb ram和8个内核可用,它将生成8个映射器。你可以在谷歌上搜索Thread(hadoop资源管理器)并检查它是如何工作的。谢谢@AdamSkywalker!谢谢你提供的信息,这非常有帮助!此外,如果机器有四个核心,那么在同一台机器上运行四个映射器也是可能的?我需要做什么特别的事情才能使用所有的内核,或者Hadoop会自动完成吗?@Jessica是的,这是可能的。通常在作业开始之前声明映射器资源,所以可以说映射器默认需要2gb ram和1个内核,如果hadoop有16gb ram和8个内核可用,它将生成8个映射器。你可以在谷歌上搜索Thread(hadoop资源管理器)并检查它是如何工作的。谢谢@AdamSkywalker!