Apache kafka 修复kafka群集的复制分区不足问题
我们的一个卡夫卡集群出现问题。在v1.0中,我们有6个节点,所有的主题都有3个分区和10个分区/主题的复制因子,这对我们来说已经足够了 由于电源故障,其中3个节点宕机了一段时间,现在我们有很多主题被报告为复制分区不足 我们在论坛上看到的唯一解决方案(似乎是更被接受的)是滚动重启,直到一切都神奇地修复,但我希望有更好的解决方案。有人从这种情况中恢复过来了吗?网络或cpu不应该成为同步的问题,因为它甚至不接近极限Apache kafka 修复kafka群集的复制分区不足问题,apache-kafka,kafka-topic,Apache Kafka,Kafka Topic,我们的一个卡夫卡集群出现问题。在v1.0中,我们有6个节点,所有的主题都有3个分区和10个分区/主题的复制因子,这对我们来说已经足够了 由于电源故障,其中3个节点宕机了一段时间,现在我们有很多主题被报告为复制分区不足 我们在论坛上看到的唯一解决方案(似乎是更被接受的)是滚动重启,直到一切都神奇地修复,但我希望有更好的解决方案。有人从这种情况中恢复过来了吗?网络或cpu不应该成为同步的问题,因为它甚至不接近极限 非常感谢 让卡夫卡自动处理可能是最好的选择,通常使用主题重新分配工具。 您还可以通过
非常感谢 让卡夫卡自动处理可能是最好的选择,通常使用主题重新分配工具。
您还可以通过使用所有主题并将所有消息写入新主题来强制重新分发,具有相同的设置,但名称与当前主题略有不同。最后,我们可以手动恢复集群,删除许多已损坏的分区,从而将未充分复制的分区从大约4600个减少到大约1k个 在这之后,我们决定在两个节点中执行有序关闭,并且在这之后,复制再次开始 我想有一种bug会让卡夫卡停止从节点复制,但这就成功了 更新: 一旦集群稳定,您还可以尝试重新平衡可用代理之间断开的分区。根据我的经验,最好是生成小的重新平衡文件,而不是重新平衡整个集群,因为它通常被困在进程的中间(至少在旧版本中)检查这是否对您有帮助。