Hadoop 太多的垃圾_Hadoop - Fatal编程技术网

Hadoop 太多的垃圾

hadoop

Hadoop 太多的垃圾,hadoop,Hadoop,我在Ubuntu 12.04和hadoop 1.2.1上安装了一个2节点hadoop集群。当我尝试运行hadoop字数计算示例时，我发现“获取错误过多””。我参考了许多文章，但我无法确定主文件、从文件和/etc/hosts文件中的条目应该是什么。我的节点名称为“master”和ip10.0.0.1，“slaveone”和ip 10.0.0.2 我需要帮助了解master和slave节点中的master、slave和/etc/hosts文件中的条目是什么？如果由于任何原因无法升级集群，您可以尝

我在Ubuntu 12.04和hadoop 1.2.1上安装了一个2节点hadoop集群。当我尝试运行hadoop字数计算示例时，我发现“

获取错误过多”

”。我参考了许多文章，但我无法确定

主文件

、

从文件

和

/etc/hosts

文件中的条目应该是什么。我的节点名称为“

master

”和

ip

10.0.0.1

，“slaveone”和

ip 10.0.0.2

我需要帮助了解

master

和

slave

节点中的master、slave和

/etc/hosts

文件中的条目是什么？

如果由于任何原因无法升级集群，您可以尝试以下操作：

确保主机名已绑定到网络IP，并且

/etc/hosts

确保仅使用主机名而不是IP来引用服务

如果上述设置正确，请尝试以下设置：

也请查看此SO帖子：

还有这个：

此外，如果上述情况不起作用：为了简洁和时间的利益，我把我发现最相关的东西放在这里

导致这种情况的第一个原因是导致连接发生故障将输出映射为失败。我看到： 1）防火墙 2）配置错误的ip地址（即：尝试提取的任务跟踪器）在查找服务器名称时收到不正确的ip地址 tasktracker（带有地图段） 3）很少情况下，服务tasktracker上的http服务器由于以下原因而过载：线程不足或侦听积压，如果每次reduce的回迁次数很大，reduce的数量或映射的数量它很大

可能还有其他的情况，这最近发生在我身上，当时我有6000个孩子映射和10节点集群上的20个还原器，我相信这就是上面的案例3。因为我实际上不需要减少（我通过计数器获得了摘要数据）在映射阶段）我从未重新调整集群

编辑：原始答案是“确保主机名绑定到网络IP和

/etc/hosts

中的127.0.0.1”

运行1.2.1的原因是什么？我认为这是不赞成的。你应该强烈考虑在2。x栈（大概2.4 +），因为它是一个稳定的版本，我使用的ITIT可能是一个稳定的版本，但它真的很老，不推荐使用。尝试升级到更高的稳定版本，如2.4、2.5或2.6是的，我尝试了一些排列和组合，以在/etc/hosts文件中添加ip地址……但在我的配置中，ie节点的名称是ip 10.0.0.1的“master”和ip 10.0.0.2的“slaveone”，请问我在MASTERS、slave和/etc/hosts文件中的条目是什么？

set mapred.reduce.slowstart.completed.maps=0.80
set tasktracker.http.threads=80
set mapred.reduce.parallel.copies=(>= 10)(10 should probably be sufficient)