apache cassandra v3.0.9中关于nodetool修复的指南
我们使用的是ApacheCassandraV3.0.9,有3个DC。我们在运行nodetool修复时遇到持续的故障,大多数情况下,修复过程会导致大的停机。我们有3个不同的数据中心,由4、4和15个节点组成。在RF=3时,总数据约为200 GB,我们使用LCS。RAM为16GB,其中6GB专用于堆。大多数情况下,我们尝试运行完全修复,修复过程失败,GC暂停时间过长,节点变得无响应。除了修复时,我们的节点在堆上运行良好,GC暂停几乎不超过300毫秒。我有以下疑问apache cassandra v3.0.9中关于nodetool修复的指南,cassandra,cassandra-3.0,repair,Cassandra,Cassandra 3.0,Repair,我们使用的是ApacheCassandraV3.0.9,有3个DC。我们在运行nodetool修复时遇到持续的故障,大多数情况下,修复过程会导致大的停机。我们有3个不同的数据中心,由4、4和15个节点组成。在RF=3时,总数据约为200 GB,我们使用LCS。RAM为16GB,其中6GB专用于堆。大多数情况下,我们尝试运行完全修复,修复过程失败,GC暂停时间过长,节点变得无响应。除了修复时,我们的节点在堆上运行良好,GC暂停几乎不超过300毫秒。我有以下疑问 是否仍然需要在gc\u grace\
gc\u grace\u秒之前运行完全修复
,或者在apache cassandra v3.0.9中,仅增量修复就足够了谢谢@zhong hu,我们在集群上进行修复时面临许多问题。对于包含23个节点(15+4+4)的整个集群,增量修复需要非常长的时间,最终会失败,sstables计数达到27K(常规计数约300-400)和非常高的平均负载(达到50个正常值3-4),甚至在我们刚刚按照“迁移到增量修复”指南。此外,我们注意到,一旦修复失败,除非我们先运行“nodetool scrub”,然后运行“nodetool compact”@Pankaj,否则它将继续失败。正如您所提到的,您的集群中可能存在很多问题,我打赌缓慢的修复操作只是擦洗了它的表面。“nodetool scrub”和nodetool紧凑型“适用于您的情况,这可能是SSTables未及时压缩的迹象,您可以考虑更改压缩策略。不过我对你的集群不太了解,这只是我的两分钱。谢谢@zhong hu,我们面临很多问题来修复我们的集群。对于包含23个节点(15+4+4)的整个集群,增量修复需要非常长的时间,最终会失败,sstables计数达到27K(常规计数约300-400)和非常高的平均负载(达到50个正常值3-4),甚至在我们刚刚按照“迁移到增量修复”指南。此外,我们注意到,一旦修复失败,除非我们先运行“nodetool scrub”,然后运行“nodetool compact”@Pankaj,否则它将继续失败。正如您所提到的,您的集群中可能存在很多问题,我打赌缓慢的修复操作只是擦洗了它的表面。“nodetool scrub”和nodetool compact“适用于您的情况,这可能是SSTables未及时压缩的迹象,您可以考虑更改压缩策略。不过,我对您的集群了解不多,这只是我的两分钱。