Nosql Cassandra集群中每个节点有多少数据?

Nosql Cassandra集群中每个节点有多少数据?,nosql,cassandra,Nosql,Cassandra,SST压实的边界在哪里(主要和次要)以及何时变得无效 如果我有几个500G的SSTable,并且我的最终SSTable将超过1TB,那么对于一个节点“重写”这个大数据集是否有效 对于硬盘而言,这可能需要大约一天的时间,并且需要两倍大小的空间,因此是否有最佳做法?1 TB是单个节点可以处理的数据量的合理限制,但实际上,节点完全不受数据大小的限制,只受操作速率的限制 一个节点上可能只有80 GB的数据,但是如果你完全用随机读取来重击它,并且它没有很多RAM,那么它甚至可能无法以合理的速率处理那么多的

SST压实的边界在哪里(主要和次要)以及何时变得无效

如果我有几个500G的SSTable,并且我的最终SSTable将超过1TB,那么对于一个节点“重写”这个大数据集是否有效


对于硬盘而言,这可能需要大约一天的时间,并且需要两倍大小的空间,因此是否有最佳做法?

1 TB是单个节点可以处理的数据量的合理限制,但实际上,节点完全不受数据大小的限制,只受操作速率的限制

一个节点上可能只有80 GB的数据,但是如果你完全用随机读取来重击它,并且它没有很多RAM,那么它甚至可能无法以合理的速率处理那么多的请求。类似地,一个节点可能有10 TB的数据,但是如果您很少从中读取数据,或者您有一小部分数据是热的(以便可以有效地缓存),那么它就可以正常工作

当一个节点上有大量数据时,压缩当然是一个需要注意的问题,但有几件事需要记住:

首先,“最大的”压缩,即结果是一个巨大的SSTable的压缩,很少发生,甚至随着节点上数据量的增加更是如此。(在顶级压缩发生之前必须发生的次要压缩的数量会随着您已经执行的顶级压缩的数量呈指数增长。)

第二,您的节点仍然能够处理请求,但读取速度会变慢

第三,如果您的复制系数大于1,并且您没有以一致性级别读取所有副本,那么其他副本将能够快速响应读取请求,因此从客户端的角度来看,您不应该看到延迟方面的巨大差异


最后,还有一些可能对一些较大的数据集有所帮助。

我要补充的是,如果您有TB的数据,您可能不会进行多次覆盖,在这种情况下,多个SSTable甚至不会因为bloom筛选器而降低读取速度。