Amazon ec2 Hadoop安全模式恢复-花费大量时间

Amazon ec2 Hadoop安全模式恢复-花费大量时间,amazon-ec2,hadoop,cloud,hdfs,Amazon Ec2,Hadoop,Cloud,Hdfs,我们正在AmazonEC2上运行集群。我们正在使用cloudera脚本来设置hadoop。在主节点上,我们从以下服务开始 609 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start namenode' 610 $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start secondarynamenode' 611 $AS_HADOOP '"$HADOOP_HOME"/bin/had

我们正在AmazonEC2上运行集群。我们正在使用cloudera脚本来设置hadoop。在主节点上,我们从以下服务开始

609   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start namenode'
610   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start secondarynamenode'
611   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start jobtracker'
612 
613   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop dfsadmin -safemode wait'
625   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start datanode'
626   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start tasktracker'
在从机上,我们运行以下服务

609   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start namenode'
610   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start secondarynamenode'
611   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start jobtracker'
612 
613   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop dfsadmin -safemode wait'
625   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start datanode'
626   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start tasktracker'
我们面临的主要问题是,hdfs安全模式恢复需要一个多小时的时间,这会导致我们的作业完成延迟

下面是主要的日志消息

1. domU-12-31-39-0A-34-61.compute-1.internal 10/05/05 20:44:19 INFO ipc.Client: Retrying connect to server: ec2-184-73-64-64.compute-1.amazonaws.com/10.192.11.240:8020. Already tried 21 time(s).
2. The reported blocks 283634 needs additional 322258 blocks to reach the threshold 0.9990 of total blocks 606499. Safe mode will be turned off automatically.
第一条消息被抛出到任务跟踪器日志中,因为作业跟踪器未启动。由于hdfs安全模式恢复,作业跟踪器未启动

第二条消息在恢复过程中抛出

我做错什么了吗? 正常hdfs安全模式恢复需要多长时间? 在作业跟踪器启动之前不启动任务跟踪器会有任何加速吗? amazon集群上是否存在已知的hadoop问题


感谢您的帮助。

在安全模式下花费的时间通常与群集的大小成正比。也就是说,正常时间最多是几分钟,而不是几小时。有几件事需要检查

  • 确认所有数据节点都已正确启动。数据节点通常需要几秒钟或几分钟才能报告大量块。检查数据节点日志,查看启动期间发生的情况
  • 确保您有足够的名称节点线程(hdfs site.xml中的dfs.namenode.handler.count),以便能够处理要签入的数据节点数。默认值为10,对于最多20个节点左右的集群来说应该可以。除此之外,增加这一数字可能是有意义的。您可能会在数据节点日志中看到指示这一点的重试。这就是重试消息向我显示的内容(例如重试21次)

  • 希望这有帮助。

    在安全模式下花费的时间通常与集群的大小成正比。也就是说,正常时间最多是几分钟,而不是几小时。有几件事需要检查

  • 确认所有数据节点都已正确启动。数据节点通常需要几秒钟或几分钟才能报告大量块。检查数据节点日志,查看启动期间发生的情况
  • 确保您有足够的名称节点线程(hdfs site.xml中的dfs.namenode.handler.count),以便能够处理要签入的数据节点数。默认值为10,对于最多20个节点左右的集群来说应该可以。除此之外,增加这一数字可能是有意义的。您可能会在数据节点日志中看到指示这一点的重试。这就是重试消息向我显示的内容(例如重试21次)
  • 希望这有帮助