Hadoop有时太慢(停留在100%)

Hadoop有时太慢(停留在100%),hadoop,mapreduce,cluster-computing,cloudera,yarn,Hadoop,Mapreduce,Cluster Computing,Cloudera,Yarn,我设置了一个由十台机器组成的集群,其中安装了CDH4(纱线)。 我在同一个节点中运行nameNode、ResourceManager和historyServer,在另一个节点中运行客户端 在其他机器上,我打开了dataNode和NodeManager。 我在一个100GB的文件上启动了我的应用程序,起初它工作正常,速度相对较快,但现在它在地图末尾变得非常慢(大约90%100%需要30分钟) 我不知道问题是来自于我编写程序的方式还是我配置cloudera CDH4的方式。 问题是,虽然我没有做任何

我设置了一个由十台机器组成的集群,其中安装了CDH4(纱线)。 我在同一个节点中运行nameNode、ResourceManager和historyServer,在另一个节点中运行客户端

在其他机器上,我打开了dataNode和NodeManager。 我在一个100GB的文件上启动了我的应用程序,起初它工作正常,速度相对较快,但现在它在地图末尾变得非常慢(大约90%100%需要30分钟)

我不知道问题是来自于我编写程序的方式还是我配置cloudera CDH4的方式。
问题是,虽然我没有做任何改变,但它有时起作用,但有时不起作用

最后我发现了为什么要花这么多时间,事实上我认为hadoop fs-expunge命令允许我清空垃圾,但它不允许,所以当hadoop尝试在HDFS文件中写入时,结果非常慢,因为剩下的空间非常少

您是否在同一时间点在同一设置上启动多个作业?请查看日志并检查日志内容。我只启动一个作业,并检查了日志,但没有错误发布您的作业计数器、日志。。。