Bitmap 查找数十亿条记录中的重复记录

Bitmap 查找数十亿条记录中的重复记录,bitmap,record,long-integer,Bitmap,Record,Long Integer,我有一百亿条数据记录,每条记录都有一个名为ID的字段。 ID是长格式的,类似于: 217775404914720768 310426682752372736 214675181568921600 我的任务是在这个数据集中找到重复的ID。我试过位图,似乎没用。 对于BloomFilter,我担心它可能会导致错误,因为我的数据集太大了。 有更好的主意吗?ids的值范围是多少?您使用“长格式”是指它们是任意的64位数字,还是受远小于(2^64-1)的最大值的限制?让我们假设该值的长度为18个字符,如

我有一百亿条数据记录,每条记录都有一个名为ID的字段。 ID是长格式的,类似于:

217775404914720768
310426682752372736
214675181568921600
我的任务是在这个数据集中找到重复的ID。我试过位图,似乎没用。 对于BloomFilter,我担心它可能会导致错误,因为我的数据集太大了。
有更好的主意吗?

ids的值范围是多少?您使用“长格式”是指它们是任意的64位数字,还是受远小于(2^64-1)的最大值的限制?让我们假设该值的长度为18个字符,如上面的示例所示。您可以使用数据库还是必须自己实现它?我需要读取记录,并自己实现它。为什么?除非你有大量的内存或者花很多时间来进行实际的搜索,否则这个问题根本不容易解决。