Algorithm 计数最小草图:如何处理计数器溢出?

Algorithm 计数最小草图:如何处理计数器溢出?,algorithm,count-min-sketch,Algorithm,Count Min Sketch,因此,的整个要点是根据提供的哈希函数的结果更新某些计数器。但是,这些计数器在内存中是有限的,在运行一段时间后,它们可能会溢出,像整数一样从最大值下降到最小值。假设我所需要的是草图中N个最常见的值,除了每隔一段时间重新启动草图外,还有什么方法可以避免这种情况吗?如果您担心这一点,请使用适当大小的整数 8字节长的无符号整数的最大值为18446744073709551615。这应该足够了 编辑 假设我所需要的是草图中最频繁的N个值,除了每隔一段时间重新启动草图外,有没有其他方法可以避免这种情况 也许您

因此,的整个要点是根据提供的哈希函数的结果更新某些计数器。但是,这些计数器在内存中是有限的,在运行一段时间后,它们可能会溢出,像整数一样从最大值下降到最小值。假设我所需要的是草图中N个最常见的值,除了每隔一段时间重新启动草图外,还有什么方法可以避免这种情况吗?

如果您担心这一点,请使用适当大小的整数

8字节长的无符号整数的最大值为18446744073709551615。这应该足够了

编辑

假设我所需要的是草图中最频繁的N个值,除了每隔一段时间重新启动草图外,有没有其他方法可以避免这种情况


也许您可以根据自己的需要进行调整。

谢谢,但假设我的内存非常有限-还有其他方法吗?编辑我的回答:水库采样可能会满足您的需要。但是一个或两个额外的字节将为您提供一个优雅、简单的解决方案;你必须非常紧张才能忽略这种可能性。你发布的链接提到了一个关于随机抽样的问题——我需要最频繁的,除非我遗漏了什么here@shakedzy:最常见的项目最有可能出现在该示例中。给定看到的项目数量和集合中不同项目的数量,您可以计算出某个项目出现在该样本中的概率。