在Cassandra中处理不可执行/重叠的sstables

在Cassandra中处理不可执行/重叠的sstables,cassandra,tombstone,Cassandra,Tombstone,我们有一个运行Cassandra 2.2.14的新集群,并留下了“自行整理”的契约。这是在我们的UAT环境中,因此负载较低。我们运行STC 我们看到墓碑永远在生长。我知道一旦sstable符合压缩条件,压缩最终将处理数据。 这种情况对我们来说并不经常发生,因此我启用了一些设置作为测试(我知道它们具有攻击性,这纯粹是为了测试): 这确实导致出现了一些压实,但是掉落的墓碑数量很低,也没有低于阈值(0.2)。 应用这些设置后,我可以从sstablemetadata中看到: Estimated drop

我们有一个运行Cassandra 2.2.14的新集群,并留下了“自行整理”的契约。这是在我们的UAT环境中,因此负载较低。我们运行STC

我们看到墓碑永远在生长。我知道一旦sstable符合压缩条件,压缩最终将处理数据。 这种情况对我们来说并不经常发生,因此我启用了一些设置作为测试(我知道它们具有攻击性,这纯粹是为了测试):

这确实导致出现了一些压实,但是掉落的墓碑数量很低,也没有低于阈值(0.2)。 应用这些设置后,我可以从sstablemetadata中看到:

Estimated droppable tombstones: 0.3514636277302944
Estimated droppable tombstones: 0.0
Estimated droppable tombstones: 6.007563159628437E-5
请注意,这只是一个CF,还有更糟糕的CF(90%的墓碑等)。以此为例,但所有CF都有相同的症状

表状态:

               SSTable count: 3
                Space used (live): 3170892738
                Space used (total): 3170892738
                Space used by snapshots (total): 3170892750
                Off heap memory used (total): 1298648
                SSTable Compression Ratio: 0.8020960426857765
                Number of keys (estimate): 506775
                Memtable cell count: 4
                Memtable data size: 104
                Memtable off heap memory used: 0
                Memtable switch count: 2
                Local read count: 2161
                Local read latency: 14.531 ms
                Local write count: 212
                Local write latency: NaN ms
                Pending flushes: 0
                Bloom filter false positives: 0
                Bloom filter false ratio: 0.00000
                Bloom filter space used: 645872
                Bloom filter off heap memory used: 645848
                Index summary off heap memory used: 192512
                Compression metadata off heap memory used: 460288
                Compacted partition minimum bytes: 61
                Compacted partition maximum bytes: 5839588
                Compacted partition mean bytes: 8075
                Average live cells per slice (last five minutes): 1.0
                Maximum live cells per slice (last five minutes): 1
                Average tombstones per slice (last five minutes): 124.0
                Maximum tombstones per slice (last five minutes): 124
这里显而易见的答案是墓碑没有资格被移除

gc_grace_seconds设置为10天,尚未移动。 我将其中一个SSTABLE转储到json,我可以看到可追溯到2019年4月的墓碑:

{"key": "353633393435353430313436373737353036315f657370a6215211e68263740a8cc4fdec",
 "cells": [["d62cf4f420fb11e6a92baabbb43c0a93",1566793260,1566793260977489,"d"],
           ["d727faf220fb11e6a67702e5d23e41ec",1566793260,1566793260977489,"d"],
           ["d7f082ba20fb11e6ac99efca1d29dc3f",1566793260,1566793260977489,"d"],
           ["d928644a20fb11e696696e95ac5b1fdd",1566793260,1566793260977489,"d"],
           ["d9ff10bc20fb11e69d2e7d79077d0b5f",1566793260,1566793260977489,"d"],
           ["da935d4420fb11e6a960171790617986",1566793260,1566793260977489,"d"],
           ["db6617c020fb11e6925271580ce42b57",1566793260,1566793260977489,"d"],
           ["dc6c40ae20fb11e6b1163ce2bad9d115",1566793260,1566793260977489,"d"],
           ["dd32495c20fb11e68f7979c545ad06e0",1566793260,1566793260977489,"d"],
           ["ddd7d9d020fb11e6837dd479bf59486e",1566793260,1566793260977489,"d"]]},
所以我不认为gc_grace_秒是这里的问题。 我已经对column family文件夹中的每个Data.db文件(仅单个Data.db文件,一次一个)运行了手动用户定义的压缩。压缩运行,但墓碑值几乎没有变化。旧数据仍然存在

事实上,我可以确认昨天已经进行了维修。我还可以确认,维修工作一直在正常进行,日志中没有显示任何问题

所以修理是好的。压实很好。 我能想到的就是重叠的桌子

最后的测试是对柱族进行完全压实。我使用JMXterm在3个SSTables上执行了一个用户定义的(不是nodetool compact)。 这导致了一个单一的SSTable文件,包含以下内容:

Estimated droppable tombstones: 9.89886650537452E-6
如果我像上面那样查找示例EPOCH(1566793260),它是不可见的。也不是关键。所以它被压缩了,或者卡桑德拉做了些什么。 在1.2亿行转储中,包含墓碑(“d”)标志的行总数为1317行。历元值均在10天内。好

所以我假设-6值是一个很小的百分比,而sstablemetadata在显示它时遇到了问题。 那么,成功是吗? 但拆除这些旧墓碑需要充分压实。就我所知,完全压实仅仅是最后的努力

我的问题是——

  • 我如何确定重叠的sstables是否是我的问题?我看不出有任何其他原因可以解释为什么数据不会压缩,除非它是重叠相关的
  • 如何在不执行完全压缩的情况下解析重叠的sstables?恐怕这将在几周后再次发生。我不想被困在必须定期进行全面压缩,以保持墓碑在海湾
  • 创建重叠sstables的原因是什么?这是数据设计问题还是其他问题
    干杯。

    回答您的问题:

    我如何确定重叠的sstables是否是我的问题?我看不出有任何其他原因可以解释为什么数据不会压缩,除非它是重叠相关的

    如果墓碑不是使用TTL生成的,那么更多的时间墓碑和阴影数据可以定位到不同的SSL表中。当使用STC并且集群中的写入量较低时,很少会触发压缩,这会导致墓碑保留较长时间。如果您具有逻辑删除的分区键,则在节点上运行
    nodetool getsstables--
    将返回本地节点中包含该键的所有sstables。您可以转储sstable内容以进行确认

    如何在不执行完全压缩的情况下解析重叠的sstables?恐怕这将在几周后再次发生。我不想被困在必须定期进行全面压缩,以保持墓碑在海湾

    “nodetool Compression-s”中有一个新选项,它可以进行主要压缩,并将输出切割为4个不同大小的SSTable。这解决了前面的主要压缩问题,它创建了一个大型sstable。如果可丢弃的墓碑比率高达80-90%,那么随着大多数墓碑被清除,产生的sstable大小将更小

    在较新版本的Cassandra(3.10+)中,有一个新的工具,nodetool garbagecollect,用来清理墓碑。但是,此工具存在局限性。并不是所有的墓碑都能被它移走

    综上所述,对于存在重叠SSTABLE和低活动量/压缩频率的情况,您必须找出所有相关SSTABLE并使用用户定义的压缩,或者使用“-s”进行主要压缩

    创建重叠sstables的原因是什么?这是数据设计问题还是其他问题


    墓碑的快速增长通常表明存在数据建模问题:应用程序是插入null,还是定期删除数据,还是使用收集并执行更新而不是追加。如果您的数据是时间序列,请检查使用TTL和TWCS是否合理

    谢谢。使用nodetool getsstables,我能够确认重叠的SSTables。我将与应用程序供应商讨论数据建模。否则,我将使用compact-s,因为它似乎是清除此问题的唯一方法。
    Estimated droppable tombstones: 9.89886650537452E-6