elasticsearch 监控多个服务的性能和运行状况,elasticsearch,kibana,monitoring,statsd,netdata,elasticsearch,Kibana,Monitoring,Statsd,Netdata" /> elasticsearch 监控多个服务的性能和运行状况,elasticsearch,kibana,monitoring,statsd,netdata,elasticsearch,Kibana,Monitoring,Statsd,Netdata" />

elasticsearch 监控多个服务的性能和运行状况

elasticsearch 监控多个服务的性能和运行状况,elasticsearch,kibana,monitoring,statsd,netdata,elasticsearch,Kibana,Monitoring,Statsd,Netdata,这是我们的要求 测量接近实时平均网页延迟(托管在AWS ecs的多个实例上),我们希望我们的服务 比如说,发一页纸。。不到一秒钟 http 200以外的错误状态不会突然出现。我们想知道是否有问题 像elasticsearch这样的独立服务并没有停止 我们在sentry或elasticsearch中记录了一些关键错误(如购买失败),并想知道它是否没有突然出现 有一个单一的监控用户界面很好,并且在满足某些条件时有一个警报 我不知道我们是否需要自己建立一个服务,我希望我们可以使用一些现成的服务 我们应

这是我们的要求

  • 测量接近实时平均网页延迟(托管在AWS ecs的多个实例上),我们希望我们的服务 比如说,发一页纸。。不到一秒钟

  • http 200以外的错误状态不会突然出现。我们想知道是否有问题

  • 像elasticsearch这样的独立服务并没有停止

  • 我们在sentry或elasticsearch中记录了一些关键错误(如购买失败),并想知道它是否没有突然出现

  • 有一个单一的监控用户界面很好,并且在满足某些条件时有一个警报

  • 我不知道我们是否需要自己建立一个服务,我希望我们可以使用一些现成的服务

    我们应该在哪里收集数据?
    我一直在看

    • elasticsearch,kibana(缺少警报)
    • statsd(似乎我们需要单独的前端进行可视化)
    • netdata(看起来更像是系统监控工具,而不是数据聚合工具)
    • 穆宁,纳吉奥斯(不确定这些是否是我们需要的)

      • 看来DataDog可能是一个很好的解决方案。您可以使用它来监控Elasticsearch,它有一个APM产品,您可以将其集成到应用程序中以监控其性能。如果您使用监控应用程序,您也可以将这些错误的度量发送给DataDog

        可以很好地处理大多数问题

        • 使用“web场景”,可以通过
          “web.test.in”
          “web.test.time”
          测量网页延迟
        • 另外,
          “web.test.rspcode”
          将显示HTTP响应代码,然后在需要时触发警报(例如:200、400、401、404、500、503…)
        • 您可以使用附加的
          zabbix\u agentd
          设置轻松监控elasticsearch
        • 这可能需要另一个专门的服务:Sentry、EFK stack来归档目标
        • Zabbix有自己的集中式UI(支持代理)和任何类型的警报(显示在仪表板、电子邮件、Slack、SMS、PagerDuty…)