Azure 服务结构不健康的服务影响其他服务 我试图理解服务结构逻辑来考虑集群中的一个节点不健康。

Azure 服务结构不健康的服务影响其他服务 我试图理解服务结构逻辑来考虑集群中的一个节点不健康。,azure,azure-service-fabric,Azure,Azure Service Fabric,我最近部署了一个新版本的应用程序,它在所有节点上运行了3个不健康的辅助服务,它们是从队列加载消息的非常轻的服务,但由于频繁的故障,在同一节点上运行的所有其他服务都受到某种原因的影响,因此所有服务都报告为不健康 我假设此行为是一种服务结构健康监测,认为节点不健康,因为同一节点上有多个服务出现故障。是这样吗 SF用于考虑节点不健康的措施是什么?详细描述了服务织物的健康模型。这些措施总是“健康报告”。服务结构本身会发出一些运行状况报告,但该模型也是可扩展的,您可以添加自己的报告 无论您是否添加了任何

我最近部署了一个新版本的应用程序,它在所有节点上运行了3个不健康的辅助服务,它们是从队列加载消息的非常轻的服务,但由于频繁的故障,在同一节点上运行的所有其他服务都受到某种原因的影响,因此所有服务都报告为不健康

我假设此行为是一种服务结构健康监测,认为节点不健康,因为同一节点上有多个服务出现故障。是这样吗


SF用于考虑节点不健康的措施是什么?详细描述了服务织物的健康模型。这些措施总是“健康报告”。服务结构本身会发出一些运行状况报告,但该模型也是可扩展的,您可以添加自己的报告

无论您是否添加了任何新的运行状况报告,或者默认情况下仅依赖于系统中存在的运行状况报告,您都可以通过在SFX中选择特定节点或运行以下命令来查看为给定节点发出的运行状况报告:

获取ServiceFabricNodeHealth-NodeName节点1

正如我们在文档中看到的,节点运行状况主要由

  • 针对该特定节点的运行状况报告(例如:节点关闭)
  • 已部署应用程序的故障
  • 特定部署的服务包(通常是中的代码包)的故障

在这些情况下,SF尝试获取关于失败的内容(退出代码、异常及其堆栈跟踪等)的尽可能多的信息,并报告该节点的运行状况警告或错误

是否有可能在一段时间后得到这份报告?一小时,一天。每个运行状况报告都有一个TTL,也可以被同一实体上相同属性的另一个运行状况报告覆盖。如果这两种情况都没有发生,它仍将作为实体上的现有运行状况可见。每个报告也作为跟踪发出,以便您可以保留历史记录,但除了“最后一次转换”(OK->Error@Timestamp)之外,其他报告不会在集群中保持热/历史记录。