Azure虚拟机每2-3小时崩溃一次_Azure_Crash_Azure Virtual Machine

Azure虚拟机每2-3小时崩溃一次

azure

Azure虚拟机每2-3小时崩溃一次,azure,crash,azure-virtual-machine,Azure,Crash,Azure Virtual Machine,我们在azure上有一个经典的虚拟机。它所做的一切就是在它上面运行SQL server和大量的DB（我们有另一个VM，它是一个web服务器，它是面向web的一方，访问SQL classic VM以获取数据）我们的问题是，从昨天早上开始，我们现在每2-3个小时就会发生一次停机。似乎没有任何理由。我们一直在与Azure支持部门合作，但他们似乎仍在努力找出问题所在。事件日志中似乎没有给我们提供任何信息所发生的一切是，我们收到一个pingdom警报，说这个盒子坏了，然后我们不能远程进入它，因为它超时

我们在azure上有一个经典的虚拟机。它所做的一切就是在它上面运行SQL server和大量的DB（我们有另一个VM，它是一个web服务器，它是面向web的一方，访问SQL classic VM以获取数据）

我们的问题是，从昨天早上开始，我们现在每2-3个小时就会发生一次停机。似乎没有任何理由。我们一直在与Azure支持部门合作，但他们似乎仍在努力找出问题所在。事件日志中似乎没有给我们提供任何信息

所发生的一切是，我们收到一个pingdom警报，说这个盒子坏了，然后我们不能远程进入它，因为它超时了，对它的所有数据库调用都失败了。5分钟后它会回来。它似乎没有完全重新启动，或者它只是拖拽的任何东西

你知道这可能是什么原因吗？或者任何我们可以寻找更好信息的地方？或者有什么方法可以防止这种情况发生

在同一时间发生的事件日志中似乎只有一件事是DNS客户端事件“在没有任何配置的DNS服务器响应后，名称[DNSName]的名称解析超时。”

最智能或快速恢复：

您是否通过使用localhost或127.0.0.1/Instance name连接内部VM（内部）来检查SQL Server。如果您能够在内部连接SQL Server而不出现任何问题，则可以对SQL Server虚拟机进行快照，并使用捕获虚拟机创建新虚拟机（即不会丢失任何数据）

此问题可能根据以下标准发生：

Azure网络防火墙

Windows服务器更新

这最终导致VM所在的节点/扇区出现故障。我通过扩大虚拟机实例的大小（4核到8核）解决了这个问题，这迫使azure将其移动到另一个节点/扇区，从而纠正了这个问题。

这听起来真的像是azure支持问题，而不是StackOverflow问题（很可能你会在ServerFault中表现得更好，因为这似乎是暂时的服务问题）。如果您的应用程序支持此方案，您是否考虑过将Azure SQL作为替代方案？我的看法是，此问题通常与您的磁盘提供的IOPS有关，可能是您的IOPS配额正在枯竭，这就是为什么在IOPS配额更新一段时间后（我相信每小时更新一次）虚拟机会停止运行的原因你把你的机器拿回来。发生在AWS和Azure中