Properties 使用Apache Storm 1.0.0在生产集群中运行拓扑时出错,拓扑未启动

Properties 使用Apache Storm 1.0.0在生产集群中运行拓扑时出错,拓扑未启动,properties,apache-storm,production-environment,Properties,Apache Storm,Production Environment,我的拓扑结构在本地集群上运行良好。 但是,当我尝试在生产集群上运行它时,会发生以下情况: 光轮升起了 暴风雨来了 我用的两个工人用完了 Zookeper上来了 我和你一起狂奔 storm jar myjar.jar MyClass Nimbus提交拓扑 拓扑和辅助对象将显示在storm UI中 但是: 尽管拓扑状态为活动状态,但拓扑不会启动 拓扑的日志文件不会出现在工作区中。 我在主管的worker.log中有以下日志: 2016-04-15 13:18:19.831 o.a.s.d.super

我的拓扑结构在本地集群上运行良好。 但是,当我尝试在生产集群上运行它时,会发生以下情况:

  • 光轮升起了
  • 暴风雨来了
  • 我用的两个工人用完了
  • Zookeper上来了
  • 我和你一起狂奔

    storm jar myjar.jar MyClass

  • Nimbus提交拓扑

  • 拓扑和辅助对象将显示在storm UI中
  • 但是:

    尽管拓扑状态为活动状态,但拓扑不会启动

    拓扑的日志文件不会出现在工作区中。

    我在主管的worker.log中有以下日志:

    2016-04-15 13:18:19.831 o.a.s.d.supervisor [WARN] There was a connection problem with nimbus. #error {
     :cause jobs-rec-storm-nimbus
     :via
     [{:type java.lang.RuntimeException
       :message org.apache.storm.thrift.transport.TTransportException: java.net.UnknownHostException: jobs-rec-storm-nimbus
       :at [org.apache.storm.security.auth.TBackoffConnect retryNext TBackoffConnect.java 64]}
      {:type org.apache.storm.thrift.transport.TTransportException
       :message java.net.UnknownHostException: jobs-rec-storm-nimbus
       :at [org.apache.storm.thrift.transport.TSocket open TSocket.java 226]}
      {:type java.net.UnknownHostException
       :message jobs-rec-storm-nimbus
       :at [java.net.AbstractPlainSocketImpl connect AbstractPlainSocketImpl.java 184]}]
     :trace
     [[java.net.AbstractPlainSocketImpl connect AbstractPlainSocketImpl.java 184]
      [java.net.SocksSocketImpl connect SocksSocketImpl.java 392]
      [java.net.Socket connect Socket.java 589]
      [org.apache.storm.thrift.transport.TSocket open TSocket.java 221]
      [org.apache.storm.thrift.transport.TFramedTransport open TFramedTransport.java 81]
      [org.apache.storm.security.auth.SimpleTransportPlugin connect SimpleTransportPlugin.java 103]
      [org.apache.storm.security.auth.TBackoffConnect doConnectWithRetry TBackoffConnect.java 53]
      [org.apache.storm.security.auth.ThriftClient reconnect ThriftClient.java 99]
      [org.apache.storm.security.auth.ThriftClient <init> ThriftClient.java 69]
      [org.apache.storm.utils.NimbusClient <init> NimbusClient.java 106]
      [org.apache.storm.utils.NimbusClient getConfiguredClientAs NimbusClient.java 78]
      [org.apache.storm.utils.NimbusClient getConfiguredClient NimbusClient.java 41]
      [org.apache.storm.blobstore.NimbusBlobStore prepare NimbusBlobStore.java 268]
      [org.apache.storm.utils.Utils getClientBlobStoreForSupervisor Utils.java 462]
      [org.apache.storm.daemon.supervisor$fn__9590 invoke supervisor.clj 942]
      [clojure.lang.MultiFn invoke MultiFn.java 243]
      [org.apache.storm.daemon.supervisor$mk_synchronize_supervisor$this__9351$fn__9369 invoke supervisor.clj 582]
      [org.apache.storm.daemon.supervisor$mk_synchronize_supervisor$this__9351 invoke supervisor.clj 581]
      [org.apache.storm.event$event_manager$fn__8903 invoke event.clj 40]
      [clojure.lang.AFn run AFn.java 22]
      [java.lang.Thread run Thread.java 745]]}
    2016-04-15 13:18:19.831 o.a.s.d.supervisor [INFO] Finished downloading code for storm id jobs-KafkaMigration-topology-3-1460740616
    2016-04-15 13:18:19.850 o.a.s.d.supervisor [INFO] Missing topology storm code, so can't launch worker with assignment ...(some more numbers)
    
    如果我对工人的nimbus ip进行ping,它会返回OK

    错误在哪里,如何修复它?


    谢谢

    我遇到了类似的问题。原来我的防火墙规则阻止了监控端口。确保主管和nimbus能够相互交谈

    在此上下文中出现的情况是,Storm supervisor第一次从Storm.yaml seed/host中配置的任何内容解析nimbus,然后使用nimbus主机名下载拓扑构件

    如果这是正确的,则DNS对于群集设置是必需的。这远远不够理想,特别是在kubernetes这样的协调环境中使用容器时

    我正在使用的当前解决方法是添加

    storm.local.hostname: "<local.ip.value>" 
    
    storm.local.hostname:“
    
    为了暴风雨,亚马尔


    感谢@bastien提供了有关storm用户邮件列表的提示

    ,我发现我需要让邮箱的主机名与我在/etc/hosts文件中所称的主机名匹配

    在我的主机文件中

    xxx.xxx.xxx.xxx光环

    但是盒子上的主机名不同,它从操作系统中提取主机名


    更改nimbus服务器操作系统上的主机名解决了我的问题

    Hi@shashank谢谢你的回复!,我不知道为什么,但当我插入dns到de IP的映射时,拓扑开始了。当您仅使用ips时,会发生一些奇怪的情况。所报告的行为与v1.0.0有关。我没有注意到,对于v0.10.0.Hi Alberto.Csm,我认为您是正确的,我使用的是0.10.0,并更新为1.0.0,但我无法确认,因为我没有尝试回滚(现在我的系统正在生产中)v1.0.1也有同样的问题,在添加配置后工作。
    storm.local.hostname: "<local.ip.value>"