Nagios监视hadoop群集的脚本

Nagios监视hadoop群集的脚本,hadoop,monitoring,nagios,Hadoop,Monitoring,Nagios,我正在尝试用Nagios监视Hadoop集群。我的目标是监视所有Hadoop守护程序(如DataNode、Jobtracker和Tasktracker等)的状态和资源使用情况。我能想到的解决方案是监视这些守护程序正在使用的端口。但这似乎非常有限。例如,我看不到有多少任务正在节点中运行等 所以,我的问题是:有没有使用Nagios的Hadoop监控系统解决方案 谢谢 舒敏,我找到了。它是一个用于监视hdfs的nagios插件。所有与hadoop相关的插件都位于nagios exchange。使用SN

我正在尝试用Nagios监视Hadoop集群。我的目标是监视所有Hadoop守护程序(如DataNode、Jobtracker和Tasktracker等)的状态和资源使用情况。我能想到的解决方案是监视这些守护程序正在使用的端口。但这似乎非常有限。例如,我看不到有多少任务正在节点中运行等

所以,我的问题是:有没有使用Nagios的Hadoop监控系统解决方案

谢谢


舒敏,我找到了。它是一个用于监视hdfs的nagios插件。所有与hadoop相关的插件都位于nagios exchange。

使用SNMP监控hadoop群集肯定有很多方法。您应该在Linux服务器上安装snmp包。此外,必须在集群上启用SNMP,我想在某种基于Web的管理控制台中有一个选项可以启用它

启用此选项后,您应该能够snmpwalk群集:

snmpwalk -v 2c -c public <ip address cluster>
snmpwalk-v2c-c公共
。。然后,您可以编写一个perl或bash脚本来检查您喜欢监视的某些OID。 您可以将此脚本放置在“libexec”文件夹中,并在commands.cfg中为此脚本定义一个新命令,如check_cluster_snmp或其他您喜欢的命令


您也可以使用JMX检查集群,但我对JMX了解不多。

您最好使用JMX,因为它允许查看Java进程以检查正在发生的事情,并提供度量(如黑名单节点、hdfs空间状态等)

您可以通过URL
从每个节点提取数据http://node.domain:port/jmx?qry=*adoop

你可以看看这些相关的问题: