Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 谷歌云计算引擎随机变得不可用_Google Cloud Platform_Linux Kernel_Debian_Google Compute Engine - Fatal编程技术网

Google cloud platform 谷歌云计算引擎随机变得不可用

Google cloud platform 谷歌云计算引擎随机变得不可用,google-cloud-platform,linux-kernel,debian,google-compute-engine,Google Cloud Platform,Linux Kernel,Debian,Google Compute Engine,我有一个运行Apache和3个python脚本的自定义(1个vCPU,2 GB内存)计算实例的问题,该实例实际上在等待消息、运行一些SQL查询和创建报告。有时,整个实例对Apache、SSH甚至对串行控制台的访问都没有响应。看起来整个实例都被冻结了。唯一的解决方案是主动登录到我的Google云帐户并重新启动实例 我检查了磁盘空间,因为谷歌在他们的一个页面中建议,这可能会导致实例冻结,但我仍然有6GB的可用磁盘空间,所以这不应该是一个问题 我已经从“串行端口1(控制台)”添加了日志,以防它可能有助

我有一个运行Apache和3个python脚本的自定义(1个vCPU,2 GB内存)计算实例的问题,该实例实际上在等待消息、运行一些SQL查询和创建报告。有时,整个实例对Apache、SSH甚至对串行控制台的访问都没有响应。看起来整个实例都被冻结了。唯一的解决方案是主动登录到我的Google云帐户并重新启动实例

我检查了磁盘空间,因为谷歌在他们的一个页面中建议,这可能会导致实例冻结,但我仍然有6GB的可用磁盘空间,所以这不应该是一个问题

我已经从“串行端口1(控制台)”添加了日志,以防它可能有助于诊断问题

有人能帮我找出为什么会这样吗?先谢谢你

串行控制台日志输出:


最好在Serverfault上问这个问题,以引起系统管理员而不是开发人员的注意

在使用科尔班评论中的上述建议之前,我建议检查一些简单的事情

1-检查实例是否正在维护中(在实例详细信息页面中,您可以找到您的维护窗口)

2-同样在实例详细信息页面下,您应该能够检查CPU和内存利用率,并查看冻结时是否有峰值。这会让你走上正确的方向


3-检查系统/应用程序日志:我建议检查/var/log/syslog和/var/log/nginx/error.log(如果适用)。

我在我的一个谷歌计算引擎实例中遇到了同样的问题,在启动一段时间后,它变得冻结。 当我重置实例时,它再次开始正常工作。 因此,我发现的问题是实例上的CPU/RAM较少,而该实例上的进程需要更多的CPU/RAM。因此,在将CPU/RAM从1CPU/3.75 GB RAM更改为4 CPU/16 GB RAM时,它开始永久正常工作


在这个问题的核心,机器是从磁盘快照创建的,在这个快照中,不同的应用程序,如tomcat,postgres配置为高CPU/内存等。因此,当机器完全运行时,所需进程的内存就会减少,这会导致实例中的缓慢和冻结。

您好,欢迎使用Stackoverflow。我建议添加Stackdriver代理,以便在VM中进行日志记录和监视。下次发生挂起时,通过Stackdriver日志记录并通过Stackdriver度量检查机器的历史记录。查找可能的资源中断,如内存或文件句柄或网络连接。Stackdriver是您进行分析的朋友。控制台日志包含启动启动信息,但没有太多(意见)。感谢您的建议!我已经加上了。似乎我已经在我的实例上激活了某种类型的日志记录。据我所知,它们没有问题。也许你能看到什么?这些日志看起来不错。。。但是把你自己想象成一个医生。如果患者生病了,你进行了一次测试(查看一组日志),但他们没有显示任何信息,你就继续进行测试。我认为内存使用和CPU使用可能是下一个问题。如果一台机器只是“放弃”了,经验告诉我,它已经没有什么资源了。您的解决方案在挂起之前运行多长时间?我正在嗅探最终耗尽机器的资源泄漏。内存泄漏将表现为内存利用率的增长。这是一个很好的类比!因为我直到现在才登录,所以我不确定每次重启间隔多长时间,但每周说一次也不过分。我检查了内存利用率,似乎内存泄漏速度很慢(一小时内从18%增长到21%),明天我会再次检查它是否真的在增长。我会告诉你发生了什么,谢谢!图片:谢谢你的回复。恐怕我找不到你说的维修窗口。我已经启用了Stackdriver和正常运行时间检查,这样我就可以获得关于机器的长期统计信息,并在下次发生时获得相关的系统日志条目。当我再次偶然发现这一点时(有更好的数据),如果我在sysadmin中创建一个线程并让这个线程单独运行会更好吗?支持Notauser所说的,您可能需要检查VM的操作日志中是否有任何日志。配置,可能有助于避免某些主机系统事件(如软件或硬件更新)中的停机。我还想向您介绍,这说明了如何构建“弹性应用程序”和“强健系统”,以避免在虚拟机(VM)运行时出现这种情况实例遭受意外的故障/停机。我所说的系统管理员vs开发人员是指系统管理员vs开发人员。请参见此处的更多信息[1][1]
Nov 18 19:14:24 web-server systemd[1]: Stopping System Logging Service...

Nov 18 19:14:24 web-server systemd[1]: Stopped System Logging Service.

Nov 18 19:14:24 web-server systemd[1]: Starting System Logging Service...

Nov 18 19:14:24 web-server systemd[1]: Started System Logging Service.

Nov 18 19:14:25 web-server dhclient[558]: bound to 10.166.0.10 -- renewal in 1434 seconds.

Nov 18 19:14:25 web-server ifup[516]: bound to 10.166.0.10 -- renewal in 1434 seconds.