AWS主节点问题的Kubernetes_Kubernetes

AWS主节点问题的Kubernetes

kubernetes

AWS主节点问题的Kubernetes,kubernetes,Kubernetes,在AWS上运行Kubernetes几天后，我的主节点就死了。这是在设置了两个不同的集群之后发生的。POD仍在运行并可用，但无法管理/proxy 问题是为什么？或者，如何替换AWS上的主节点？或者，我如何调试现有的一个？或者，我如何使用t2.micro以外的东西，它可能太小而无法运行master 症状： $kubectl获得豆荚错误：无法从服务器读取版本：获取https://**.###########/api:dial tcp**.##########：443:连接被拒绝编辑：这是我在进一

在AWS上运行Kubernetes几天后，我的主节点就死了。这是在设置了两个不同的集群之后发生的。POD仍在运行并可用，但无法管理/proxy

问题是为什么？或者，如何替换AWS上的主节点？或者，我如何调试现有的一个？或者，我如何使用t2.micro以外的东西，它可能太小而无法运行master

症状： $kubectl获得豆荚错误：无法从服务器读取版本：获取https://**.###########/api:dial tcp**.##########：443:连接被拒绝

编辑：这是我在进一步调试后发现的：

goroutine 571 [running]:
net/http.func·018()
    /usr/src/go/src/net/http/transport.go:517 +0x2a
net/http.(*Transport).CancelRequest(0xc2083c0630, 0xc209750d00)
    /usr/src/go/src/net/http/transport.go:284 +0x97
github.com/coreos/go-etcd/etcd.func·003()
    /go/src/github.com/GoogleCloudPlatform/kubernetes/Godeps/_workspace/src/github.com/coreos/go-etcd/etcd/requests.go:159 +0x236
created by github.com/coreos/go-etcd/etcd.(*Client).SendRequest
    /go/src/github.com/GoogleCloudPlatform/kubernetes/Godeps/_workspace/src/github.com/coreos/go-etcd/etcd/requests.go:168 +0x3e3

goroutine 1 [IO wait, 12 minutes]:
net.(*pollDesc).Wait(0xc20870e760, 0x72, 0x0, 0x0)
    /usr/src/go/src/net/fd_poll_runtime.go:84 +0x47
net.(*pollDesc).WaitRead(0xc20870e760, 0x0, 0x0)
    /usr/src/go/src/net/fd_poll_runtime.go:89 +0x43
net.(*netFD).accept(0xc20870e700, 0x0, 0x7f4424a42008, 0xc20930a168)
    /usr/src/go/src/net/fd_unix.go:419 +0x40b
net.(*TCPListener).AcceptTCP(0xc20804bec0, 0x5bccce, 0x0, 0x0)
    /usr/src/go/src/net/tcpsock_posix.go:234 +0x4e
net/http.tcpKeepAliveListener.Accept(0xc20804bec0, 0x0, 0x0, 0x0, 0x0)
    /usr/src/go/src/net/http/server.go:1976 +0x4c
net/http.(*Server).Serve(0xc20887ec60, 0x7f4424a66dc8, 0xc20804bec0, 0x0, 0x0)
    /usr/src/go/src/net/http/server.go:1728 +0x92
net/http.(*Server).ListenAndServe(0xc20887ec60, 0x0, 0x0)
    /usr/src/go/src/net/http/server.go:1718 +0x154
github.com/GoogleCloudPlatform/kubernetes/cmd/kube-apiserver/app.(*APIServer).Run(0xc2081f0e00, 0xc20806e0e0, 0x0, 0xe, 0x0, 0x0)
    /go/src/github.com/GoogleCloudPlatform/kubernetes/_output/dockerized/go/src/github.com/GoogleCloudPlatform/kubernetes/cmd/kube-apiserver/app/server.go:484 +0x264a
main.main()
        /go/src/github.com/GoogleCloudPlatform/kubernetes/_output/dockerized/go/src/github.com/GoogleCloudPlatform/kubernetes/cmd/kube-apiserver/apiserver.go:48 +0x154

几乎可以肯定的是，机器的初始大小太小，内存不足（或类似的情况）。要使用更大的集群大小，请遵循此链接[1]，并在启动集群之前设置一个环境变量

在这种情况下，类似于：

export MINION_SIZE=t2.large

应该永远跑下去

[1]

[2] 或其合理近似值。：）

到目前为止，您在调试方面做了哪些尝试？与任何服务一样，首先要检查的是（a）服务是否正在运行？（b）它是否在系统日志或应用程序日志中记录了任何错误？我应该注意，master已启动，但我无法ssh。我可以想象会出现类似文件描述符泄漏的情况，但谁知道呢？设置一个更大的主机（通过浏览github）export MASTER_SIZE=xxx这是我在它崩溃之前遇到的错误：I0822 19:58:56.619416 7个日志。172.20.0.0:1111的go:41]http:TLS握手错误：EOFI与@JuanIsFree有完全相同的问题。我想另一个相关的问题值得一问，就是没有一个主节点，一个单一的故障点吗？有没有一种方法可以让一个以上的主机，以防一个主机出现故障？