Java 为什么我的Cassandra节点一直处于突变阶段？_Java_Performance_Optimization_Cassandra_Deadlock

Java 为什么我的Cassandra节点一直处于突变阶段？

java performance optimization cassandra

Java 为什么我的Cassandra节点一直处于突变阶段？,java,performance,optimization,cassandra,deadlock,Java,Performance,Optimization,Cassandra,Deadlock,我用卡桑德拉来储存照片。我们目前正在从旧系统大规模迁移图片。在一段时间内一切都很好，但最终我们在保存时会得到一个TimedOutException，我认为这是因为工作队列已满但是，在等待（几个小时）完成之后，情况仍然是一样的（停止迁移后不会自行恢复）似乎只有一个节点有问题，其tpstats命令显示以下数据挂起的MutationStage操作不断增加，即使我们在几个小时前停止了插入这到底是什么意思？什么是突变阶段我可以检查什么，看看为什么这么长时间后它没有稳定下来？环中的所有其他服务器

我用卡桑德拉来储存照片。我们目前正在从旧系统大规模迁移图片。在一段时间内一切都很好，但最终我们在保存时会得到一个

TimedOutException

，我认为这是因为工作队列已满

但是，在等待（几个小时）完成之后，情况仍然是一样的（停止迁移后不会自行恢复）

似乎只有一个节点有问题，其

tpstats

命令显示以下数据

挂起的MutationStage操作不断增加，即使我们在几个小时前停止了插入

这到底是什么意思？什么是突变阶段

我可以检查什么，看看为什么这么长时间后它没有稳定下来？环中的所有其他服务器都处于0挂起操作状态

我们尝试的任何新插入都会抛出

TimedOutException

。。。例外

这是戒指信息，以防有用

（有问题的节点是第一个）

编辑：日志中的最后几行如下所示

INFO [OptionalTasks:1] 2013-02-05 10:12:59,140 MeteredFlusher.java (line 62) flushing high-traffic column family CFS(Keyspace='pics_persistent', ColumnFamily='master') (estimated 92972117 bytes)  
INFO [OptionalTasks:1] 2013-02-05 10:12:59,141 ColumnFamilyStore.java (line 643) Enqueuing flush of Memtable-master@916497516(74377694/92972117 serialized/live bytes, 141 ops)
INFO [OptionalTasks:1] 2013-02-05 10:14:49,205 MeteredFlusher.java (line 62) flushing high-traffic column family CFS(Keyspace='pics_persistent', ColumnFamily='master') (estimated 80689206 bytes)
INFO [OptionalTasks:1] 2013-02-05 10:14:49,207 ColumnFamilyStore.java (line 643) Enqueuing flush of Memtable-master@800272493(64551365/80689206 serialized/live bytes, 113 ops)
WARN [MemoryMeter:1] 2013-02-05 10:16:10,662 Memtable.java (line 197) setting live ratio to minimum of 1.0 instead of 0.0015255633589225548
INFO [MemoryMeter:1] 2013-02-05 10:16:10,663 Memtable.java (line 213) CFS(Keyspace='pics_persistent', ColumnFamily='master') liveRatio is 1.0 (just-counted was 1.0).  calculation took 38ms for 86 columns
INFO [OptionalTasks:1] 2013-02-05 10:16:33,267 MeteredFlusher.java (line 62) flushing high-traffic column family CFS(Keyspace='pics_persistent', ColumnFamily='master') (estimated 71029403 bytes)
INFO [OptionalTasks:1] 2013-02-05 10:16:33,269 ColumnFamilyStore.java (line 643) Enqueuing flush of Memtable-master@143498560(56823523/71029403 serialized/live bytes, 108 ops)
INFO [ScheduledTasks:1] 2013-02-05 11:36:27,798 GCInspector.java (line 122) GC for ParNew: 243 ms for 1 collections, 1917768456 used; max is 3107979264
INFO [ScheduledTasks:1] 2013-02-05 13:00:54,090 GCInspector.java (line 122) GC for ParNew: 327 ms for 1 collections, 1966976760 used; max is 3107979264

我猜你只是用写操作重载了一个节点——也就是说，你写的速度比它消化的速度快。如果你的写作量很大，这很容易

即使在您停止写入集群之后，MutationStage仍在增加，因为其他节点仍在处理排队的变异请求，并将副本发送到此过载节点

我不知道为什么其中一个节点会过载，因为可能有几个原因：

该节点比其他节点慢（不同的硬件或不同的配置）
集群未正确平衡（但是，nodetool环输出的开头表明情况并非如此）
您将所有写操作定向到此特定节点，而不是将它们平均分配到所有节点，例如通过循环
您为太小的总堆空间配置了太大的总memtables大小限制/或缓存大小，并且您的节点正在与GC进行斗争，而恰好这是第一个陷入GC死亡螺旋的节点

请在邮件列表中询问此问题；这里有更多的专家，你能给我们介绍一下你在cassandra中的“模式”吗？你如何选择保存每个图像的位置（键/列名）？您还可以告诉我们，在进行此迁移时是否发生了Compation？（查看nodetool compactionstats）哪一版本的Cassandra？