Linux 卡夫卡经纪人每天都崩溃-OOM杀手

Linux 卡夫卡经纪人每天都崩溃-OOM杀手,linux,apache-kafka,Linux,Apache Kafka,我有3个卡夫卡代理0.10.2.1版的集群。每个代理都有自己的主机2 cpu/16G RAM,此外,我们使用docker包装代理进程 问题如下: 几乎每天在同一时间,我们都会看到所有卡夫卡客户失败10分钟。 一开始我认为这与 但过了一会儿,我发现经纪人只是因为谋杀而崩溃了 在我发现它是OOM杀手之前,我还玩过Xmx和Xms。我有: -Xmx2048M-Xms2048M -Xmx4096M-Xms2048M 两者的行为相同 此外,目前我们没有ulimit >> ulimit unlim

我有3个卡夫卡代理0.10.2.1版的集群。每个代理都有自己的主机2 cpu/16G RAM,此外,我们使用docker包装代理进程

问题如下: 几乎每天在同一时间,我们都会看到所有卡夫卡客户失败10分钟。 一开始我认为这与 但过了一会儿,我发现经纪人只是因为谋杀而崩溃了

在我发现它是OOM杀手之前,我还玩过Xmx和Xms。我有:

-Xmx2048M-Xms2048M

-Xmx4096M-Xms2048M

两者的行为相同

此外,目前我们没有ulimit

>> ulimit
unlimited
less kern.log

日志:

Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761019] run-parts invoked oom-killer: gfp_mask=0x26000c0, order=2, oom_score_adj=0
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761022] run-parts cpuset=/ mems_allowed=0
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761026] CPU: 1 PID: 12266 Comm: run-parts Not tainted 4.4.0-59-generic #80-Ubuntu
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761027] Hardware name: Xen HVM domU, BIOS 4.2.amazon 02/16/2017
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761029]  0000000000000286 000000004811d7da ffff880036967af0 ffffffff813f7583
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761031]  ffff880036967cc8 ffff880439f2f000 ffff880036967b60 ffffffff8120ad5e
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761033]  ffffffff81cd2dc7 0000000000000000 ffffffff81e67760 0000000000000206
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761036] Call Trace:
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761041]  [<ffffffff813f7583>] dump_stack+0x63/0x90
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761044]  [<ffffffff8120ad5e>] dump_header+0x5a/0x1c5
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761048]  [<ffffffff81192722>] oom_kill_process+0x202/0x3c0
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761049]  [<ffffffff81192b49>] out_of_memory+0x219/0x460
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761052]  [<ffffffff81198abd>] __alloc_pages_slowpath.constprop.88+0x8fd/0xa70
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761054]  [<ffffffff81198eb6>] __alloc_pages_nodemask+0x286/0x2a0
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761056]  [<ffffffff81198f6b>] alloc_kmem_pages_node+0x4b/0xc0
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761060]  [<ffffffff8107ea5e>] copy_process+0x1be/0x1b70
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761063]  [<ffffffff81391bcc>] ? apparmor_file_alloc_security+0x5c/0x220
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761066]  [<ffffffff811ed05a>] ? kmem_cache_alloc+0x1ca/0x1f0
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761070]  [<ffffffff81347bd3>] ? security_file_alloc+0x33/0x50
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761073]  [<ffffffff810caf11>] ? __raw_callee_save___pv_queued_spin_unlock+0x11/0x20
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761074]  [<ffffffff810805a0>] _do_fork+0x80/0x360
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761076]  [<ffffffff81080929>] SyS_clone+0x19/0x20
Jan 23 06:25:16 kafka10-172-40-103-177 kernel: [16504862.761080]  [<ffffffff818384f2>] entry_SYSCALL_64_fastpath+0x16/0x71

有没有关于如何解决这个问题的建议

我也遇到了下面提到的博客帮我解决的同样问题:

请确保所有代理都启用了交换。

我们发现了问题。 首先,我要说的是,向机器添加更多RAM也解决了问题,但这是一个“昂贵的解决方案”

问题如下: 因为我使用的是EC2 ubuntu发行版,所以我每天都会同时在集群中使用crontab。其中一个脚本是这个脚本显然占用了太多的资源

我假设,由于卡夫卡的所有集群都存在IO和内存问题,代理试图使用更多内存,然后OOM杀手杀死了他们。 当我的3个经纪人中有2个倒闭时,一些服务也倒闭了

因此解决方案是:

  • 将crontab更改为在每天的不同时间工作 经纪人

  • 禁用


  • 您的群集有什么问题?我发现我的集群上禁用了交换,我没有看到任何建议在kafka上使用交换文件。再次感谢你的回答,同样的经纪人也崩溃了。然后我升级了提供的服务器(16GB RAM)。为代理和rest提供了5GB用于页面缓存。减少了生产者缓冲区大小,因为生产者数量太多。然后除掉这个虫子。
    Jan 24 06:25:25 kafka10-172-40-103-177 kernel: [16591270.954463] Out of memory: Kill process 16123 (java) score 134 or sacrifice child
    Jan 24 06:25:25 kafka10-172-40-103-177 kernel: [16591270.958609] Killed process 16123 (java) total-vm:11977548kB, anon-rss:2035780kB, file-rss:67848kB