Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/jsf/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何优化和调优hadoop集群性能_Hadoop - Fatal编程技术网

如何优化和调优hadoop集群性能

如何优化和调优hadoop集群性能,hadoop,Hadoop,我不太熟悉hadoop集群配置,最近我将ApacheNutch与ApacheHadoop集成在一起,并成功地对Solr中索引的数据进行了爬网。 我的主从源代码如下: 大师: CPU:4核 内存:12G 硬盘:37G 奴隶1: CPU:2核 内存:4G 硬盘:18G 奴隶2: CPU:2核 内存:4G 硬盘:16G 奴隶3: CPU:2核 内存:4G 硬盘:16G 奴隶4: CPU:4核 内存:4G 硬盘:50G 我已经配置了core-site.xml、mapred-site.xml、hdfs-s

我不太熟悉hadoop集群配置,最近我将ApacheNutch与ApacheHadoop集成在一起,并成功地对Solr中索引的数据进行了爬网。 我的主从源代码如下:

大师: CPU:4核 内存:12G 硬盘:37G

奴隶1: CPU:2核 内存:4G 硬盘:18G

奴隶2: CPU:2核 内存:4G 硬盘:16G

奴隶3: CPU:2核 内存:4G 硬盘:16G

奴隶4: CPU:4核 内存:4G 硬盘:50G

我已经配置了core-site.xml、mapred-site.xml、hdfs-site.xml、主服务器和从服务器

以下是我的core-site.xml:


hadoop.tmp.dir
/usr/local/My项目名称/hadoop数据存储
存储数据
fs.default.name
hdfs://master:54310 
默认文件系统的名称
以下是我的mapred-site.xml:


mapred.job.tracker
船长:54311
主机和端口
mapred.reduce.tasks
10
mapred.map.tasks
20
mapred.tasktracker.map.tasks.max
8.
mapred.tasktracker.reduce.tasks.max
8.
这是我的hdfs-site.xml:


dfs.replication
2.
默认块
这是我的配置/主控:

master
最后,我的conf/slaves:

master
奴隶1
奴隶2
奴隶3
奴隶
这个故事进展顺利:当我运行master和Jps命令时,我在master上有如下内容:

19031任务跟踪器
18644数据节点
18764第二名称节点
18884工作追踪者
13226日元
18506名称节点
当我在所有从机上运行Jps命令时,我有以下内容:

4969数据节点
5057任务跟踪器
5592日元
当我查看Master Hadoop Map/Reduce administration时,我有以下集群摘要:

集群摘要(堆大小为114.5 MB/889 MB)
运行映射任务运行缩减任务总计提交减少占用的映射时隙占用的缩减时隙保留的映射时隙保留的缩减时隙映射任务容量减少任务容量YAVG。任务/节点BLACKLISTED节点灰色列出的节点排除的节点
88160788008816


您的主节点正在运行许多服务:

TaskTracker数据节点次要名称节点JobTracker名称节点

通常,在一个规模合适的集群中,主节点不会有datanode服务

名称节点和辅助名称节点应位于不同的节点上。可以在一个数据节点上设置辅助名称节点

类似地,任务跟踪器-主机通常没有任务跟踪器。也就是说,您不在主机上运行MR任务


另一方面,对于纯实验而言,您所做的设置是正常的&您注意到的CPU使用情况是显而易见的。

我发现版本1.2.1在深入查看日志目录时出错,称该版本是1.2.1快照版本。因此,我更改了服务器,只安装了1.2.1版,并使所有从属服务器和主服务器在版本上相似。这解决了我的问题。现在很高兴我有五个节点,相当于我的机器数量


我真的很感谢。。。对于他的友好帮助

你是否考虑过使用Hadoop管理系统?例如,您可以使用Cloudera Express轻松设置集群-它说
节点1
,您应该查看从属服务器的日志,而不是
jps
。实际上,Thomas Jungblut,我检查了日志,发现以下错误:hadoop-hduser-datanode-satra-machine-slave1.log,下面是错误内容:2015-05-02 11:09:27955 FATAL org.apache.hadoop.hdfs.server.datanode.datanode:正在关闭。不兼容的版本或修订版。DataNode版本“1.2.1”和修订版$2015-05-02 11:09:28057错误org.apache.hadoop.hdfs.server.DataNode.DataNode:java.io.IOException:关闭。不兼容的版本或修订版.DataNode ver$org.apache.hadoop.hdfs.server.DataNode.DataNode.startDataNode(DataNode.java:391)