Monitoring Bosun HA和可扩展性_Monitoring_Scalability_High Availability_Bosun_Scollector

Monitoring Bosun HA和可扩展性

monitoring

Monitoring Bosun HA和可扩展性,monitoring,scalability,high-availability,bosun,scollector,Monitoring,Scalability,High Availability,Bosun,Scollector,我有一个小型的bosun设置，它从许多服务中收集指标，我们计划在云上扩展这些服务。这将意味着更多的数据进入bosun，因此，bosun的负载/效率/规模将受到影响我担心由于网络开销和出现故障而丢失数据我正在寻找bosun的任何性能基准报告，或任何关于规模和HA的基准测试/测试bosun的输入此外，任何关于良好做法的意见都将有助于扩大博桑的规模我目前的想法是，在分布式opentsdb设置的支持下，以集群的形式运行大量的bosun二进制文件。此外，我认为值得运行一些bosun执行器作为S

我有一个小型的bosun设置，它从许多服务中收集指标，我们计划在云上扩展这些服务。这将意味着更多的数据进入bosun，因此，bosun的负载/效率/规模将受到影响

我担心由于网络开销和出现故障而丢失数据

我正在寻找bosun的任何性能基准报告，或任何关于规模和HA的基准测试/测试bosun的输入

此外，任何关于良好做法的意见都将有助于扩大博桑的规模

我目前的想法是，在分布式opentsdb设置的支持下，以集群的形式运行大量的bosun二进制文件。此外，我认为值得运行一些bosun执行器作为SCOCollector数据的普通“收集器”（使用

bosun-n

命令），而有些执行器只是计算警报

这种方法的问题在于，可能会从多个bosun实例触发相同的警报（运行时没有选项

-n

）。是否有更好的方法来消除重复警报？

当前的最佳做法是：

用于将度量转发到opentsdb。这将使bosun二进制文件脱离“关键路径”。它还应该将度量转发给bosun进行索引，并可以将度量流复制到多个数据中心进行灾难恢复/备份

确保hadoop/opentsdb集群至少有5个节点。您无法在3节点集群上进行实时维护，hadoop通常在十几个或更多节点上运行。我们使用Cloudera管理器来管理hadoop集群，其他人推荐使用ApacheAmbari

使用负载平衡器（如HAProxy）在主动/被动模式下跨tsdbrelay的多个实例拆分/api/put写流量。我们在每个节点上运行一个实例（将tsdbrelay转发到本地opentsdb实例），并将所有写入流量定向到主写入节点（具有多个辅助/备份节点）

以主动/主动模式（也称为循环路由或基于哈希的路由）在直接指向opentsdb（无需通过中继）的其余节点上拆分/api/query流量。这通过在非写节点之间平衡它们来提高查询性能

我们在每个数据中心只运行一个bosun实例，DR站点使用只读标志（任何故障切换都是手动的）。它实际上还不是为HA设计的，但将来可能允许两个节点共享一个redis实例，并允许主动/主动或主动/被动HA

通过使用tsdbrelay复制度量流，您不必处理opentsdb/hbase复制，而是可以在每个数据中心中设置多个独立的监视系统，并将度量复制到适当的站点。我们有一个主站点和一个灾难恢复站点，并选择将所有指标复制到两个数据中心。实际上，我每天都使用DR站点进行Grafana查询，因为它离我住的地方比较近

您可以在中找到有关生产设置的更多详细信息，包括我们在Stack Overflow中使用的所有haproxy/tsdbrelay/etc配置文件的副本