Configuration 确定单节点集群上Hadoop配置设置的通用方法

Configuration 确定单节点集群上Hadoop配置设置的通用方法,configuration,hadoop,configuration-files,task,configuration-management,Configuration,Hadoop,Configuration Files,Task,Configuration Management,我想知道如何最好地确定适当的map数量,减少任务和 JVM堆的相应最大大小?对于Hadoop新手,这些属性是在 mapred-site.xml文件。是否有一个基于(虚拟)内核和RAM数量的通用公式 在您的响应中,考虑在工作之前/工作期间创建的各种附加的Hadoop进程。 处理及其对RAM使用的影响 (见:) 当从单机集群转移到双机集群时,您如何应对变化?时间已经过去,没有人试图给出答案。因此,我将提出一些想法,希望其他人能够指出存在的缺陷 配置Hadoop最重要的一点是不允许消耗太多的资源;工作

我想知道如何最好地确定适当的map数量,减少任务和 JVM堆的相应最大大小?对于Hadoop新手,这些属性是在 mapred-site.xml文件。是否有一个基于(虚拟)内核和RAM数量的通用公式

在您的响应中,考虑在工作之前/工作期间创建的各种附加的Hadoop进程。 处理及其对RAM使用的影响 (见:)


当从单机集群转移到双机集群时,您如何应对变化?

时间已经过去,没有人试图给出答案。因此,我将提出一些想法,希望其他人能够指出存在的缺陷

配置Hadoop最重要的一点是不允许消耗太多的资源;工作会失败,例外情况并不总是有助于快速确定出哪里出了问题。特别是内存资源将导致立即崩溃,正如问题所指出的,JVM可能会尝试请求不必要的内存量

我们必须考虑map和reduce之外的过程(比如map和reduce之间的排序)。不幸的是,没有人提出同时存在多少进程的建议

这是我的建议。如果映射器的数量为M,还原器的数量为R,并且盒子上的总虚拟RAM为G。我当前正在为每个进程分配G/(2*M+R)数量的RAM。系数2假设有一个额外的进程对每个map进程的输出进行排序或执行其他支持工作。最后,我确保2*M+R 到目前为止,我还没有用这种方法拆掉我的盒子