Google cloud platform 谷歌云计算引擎随机变得不可用_Google Cloud Platform_Linux Kernel_Debian_Google Compute Engine

Google cloud platform 谷歌云计算引擎随机变得不可用

google-cloud-platform linux-kernel debian google-compute-engine

Google cloud platform 谷歌云计算引擎随机变得不可用,google-cloud-platform,linux-kernel,debian,google-compute-engine,Google Cloud Platform,Linux Kernel,Debian,Google Compute Engine,我有一个运行Apache和3个python脚本的自定义（1个vCPU，2 GB内存）计算实例的问题，该实例实际上在等待消息、运行一些SQL查询和创建报告。有时，整个实例对Apache、SSH甚至对串行控制台的访问都没有响应。看起来整个实例都被冻结了。唯一的解决方案是主动登录到我的Google云帐户并重新启动实例我检查了磁盘空间，因为谷歌在他们的一个页面中建议，这可能会导致实例冻结，但我仍然有6GB的可用磁盘空间，所以这不应该是一个问题我已经从“串行端口1（控制台）”添加了日志，以防它可能有助

我有一个运行Apache和3个python脚本的自定义（1个vCPU，2 GB内存）计算实例的问题，该实例实际上在等待消息、运行一些SQL查询和创建报告。有时，整个实例对Apache、SSH甚至对串行控制台的访问都没有响应。看起来整个实例都被冻结了。唯一的解决方案是主动登录到我的Google云帐户并重新启动实例

我检查了磁盘空间，因为谷歌在他们的一个页面中建议，这可能会导致实例冻结，但我仍然有6GB的可用磁盘空间，所以这不应该是一个问题

我已经从“串行端口1（控制台）”添加了日志，以防它可能有助于诊断问题

有人能帮我找出为什么会这样吗？先谢谢你

串行控制台日志输出：

最好在Serverfault上问这个问题，以引起系统管理员而不是开发人员的注意

在使用科尔班评论中的上述建议之前，我建议检查一些简单的事情

1-检查实例是否正在维护中（在实例详细信息页面中，您可以找到您的维护窗口）

2-同样在实例详细信息页面下，您应该能够检查CPU和内存利用率，并查看冻结时是否有峰值。这会让你走上正确的方向

3-检查系统/应用程序日志：我建议检查/var/log/syslog和/var/log/nginx/error.log（如果适用）。

我在我的一个谷歌计算引擎实例中遇到了同样的问题，在启动一段时间后，它变得冻结。当我重置实例时，它再次开始正常工作。因此，我发现的问题是实例上的CPU/RAM较少，而该实例上的进程需要更多的CPU/RAM。因此，在将CPU/RAM从1CPU/3.75 GB RAM更改为4 CPU/16 GB RAM时，它开始永久正常工作

在这个问题的核心，机器是从磁盘快照创建的，在这个快照中，不同的应用程序，如tomcat，postgres配置为高CPU/内存等。因此，当机器完全运行时，所需进程的内存就会减少，这会导致实例中的缓慢和冻结。

您好，欢迎使用Stackoverflow。我建议添加Stackdriver代理，以便在VM中进行日志记录和监视。下次发生挂起时，通过Stackdriver日志记录并通过Stackdriver度量检查机器的历史记录。查找可能的资源中断，如内存或文件句柄或网络连接。Stackdriver是您进行分析的朋友。控制台日志包含启动启动信息，但没有太多（意见）。感谢您的建议！我已经加上了。似乎我已经在我的实例上激活了某种类型的日志记录。据我所知，它们没有问题。也许你能看到什么？这些日志看起来不错。。。但是把你自己想象成一个医生。如果患者生病了，你进行了一次测试（查看一组日志），但他们没有显示任何信息，你就继续进行测试。我认为内存使用和CPU使用可能是下一个问题。如果一台机器只是“放弃”了，经验告诉我，它已经没有什么资源了。您的解决方案在挂起之前运行多长时间？我正在嗅探最终耗尽机器的资源泄漏。内存泄漏将表现为内存利用率的增长。这是一个很好的类比！因为我直到现在才登录，所以我不确定每次重启间隔多长时间，但每周说一次也不过分。我检查了内存利用率，似乎内存泄漏速度很慢（一小时内从18%增长到21%），明天我会再次检查它是否真的在增长。我会告诉你发生了什么，谢谢！图片：谢谢你的回复。恐怕我找不到你说的维修窗口。我已经启用了Stackdriver和正常运行时间检查，这样我就可以获得关于机器的长期统计信息，并在下次发生时获得相关的系统日志条目。当我再次偶然发现这一点时（有更好的数据），如果我在sysadmin中创建一个线程并让这个线程单独运行会更好吗？支持Notauser所说的，您可能需要检查VM的操作日志中是否有任何日志。配置，可能有助于避免某些主机系统事件（如软件或硬件更新）中的停机。我还想向您介绍，这说明了如何构建“弹性应用程序”和“强健系统”，以避免在虚拟机（VM）运行时出现这种情况实例遭受意外的故障/停机。我所说的系统管理员vs开发人员是指系统管理员vs开发人员。请参见此处的更多信息[1][1]

Nov 18 19:14:24 web-server systemd[1]: Stopping System Logging Service...

Nov 18 19:14:24 web-server systemd[1]: Stopped System Logging Service.

Nov 18 19:14:24 web-server systemd[1]: Starting System Logging Service...

Nov 18 19:14:24 web-server systemd[1]: Started System Logging Service.

Nov 18 19:14:25 web-server dhclient[558]: bound to 10.166.0.10 -- renewal in 1434 seconds.

Nov 18 19:14:25 web-server ifup[516]: bound to 10.166.0.10 -- renewal in 1434 seconds.