Configuration 确定单节点集群上Hadoop配置设置的通用方法_Configuration_Hadoop_Configuration Files_Task_Configuration Management

Configuration 确定单节点集群上Hadoop配置设置的通用方法

configuration hadoop

Configuration 确定单节点集群上Hadoop配置设置的通用方法,configuration,hadoop,configuration-files,task,configuration-management,Configuration,Hadoop,Configuration Files,Task,Configuration Management,我想知道如何最好地确定适当的map数量，减少任务和 JVM堆的相应最大大小？对于Hadoop新手，这些属性是在 mapred-site.xml文件。是否有一个基于（虚拟）内核和RAM数量的通用公式在您的响应中，考虑在工作之前/工作期间创建的各种附加的Hadoop进程。处理及其对RAM使用的影响（见：）当从单机集群转移到双机集群时，您如何应对变化？时间已经过去，没有人试图给出答案。因此，我将提出一些想法，希望其他人能够指出存在的缺陷配置Hadoop最重要的一点是不允许消耗太多的资源；工作

我想知道如何最好地确定适当的map数量，减少任务和 JVM堆的相应最大大小？对于Hadoop新手，这些属性是在 mapred-site.xml文件。是否有一个基于（虚拟）内核和RAM数量的通用公式

在您的响应中，考虑在工作之前/工作期间创建的各种附加的Hadoop进程。处理及其对RAM使用的影响（见：）

当从单机集群转移到双机集群时，您如何应对变化？

时间已经过去，没有人试图给出答案。因此，我将提出一些想法，希望其他人能够指出存在的缺陷

配置Hadoop最重要的一点是不允许消耗太多的资源；工作会失败，例外情况并不总是有助于快速确定出哪里出了问题。特别是内存资源将导致立即崩溃，正如问题所指出的，JVM可能会尝试请求不必要的内存量

我们必须考虑map和reduce之外的过程（比如map和reduce之间的排序）。不幸的是，没有人提出同时存在多少进程的建议

这是我的建议。如果映射器的数量为M，还原器的数量为R，并且盒子上的总虚拟RAM为G。我当前正在为每个进程分配G/（2*M+R）数量的RAM。系数2假设有一个额外的进程对每个map进程的输出进行排序或执行其他支持工作。最后，我确保2*M+R 到目前为止，我还没有用这种方法拆掉我的盒子