Indexing 对动态数据集使用位置敏感哈希

Indexing 对动态数据集使用位置敏感哈希,indexing,string-matching,nearest-neighbor,locality-sensitive-hash,Indexing,String Matching,Nearest Neighbor,Locality Sensitive Hash,我对数据库记录使用LSH,并由此创建了一个索引(不是数据库索引,一个简单的hashmap),其中相似的记录被阻塞到同一个bucket中。数据库可能包含数百万条记录。我的问题与我在下面发布的设计有关 首先,我将通过执行LSH使用可用的数据库创建索引。但是,当一个新记录插入到数据库中时,我必须将该记录也索引到索引中。如何使用LSH实现这一点?LSH能否将该记录分配给具有类似记录的bucket??LSH是否支持对DataSet的更新?< P>我将使用(由ANDONI开发的,这是一个很棒的家伙),它是

我对数据库记录使用LSH,并由此创建了一个索引(不是数据库索引,一个简单的hashmap),其中相似的记录被阻塞到同一个bucket中。数据库可能包含数百万条记录。我的问题与我在下面发布的设计有关

首先,我将通过执行LSH使用可用的数据库创建索引。但是,当一个新记录插入到数据库中时,我必须将该记录也索引到索引中。如何使用LSH实现这一点?LSH能否将该记录分配给具有类似记录的bucket??LSH是否支持对DataSet的更新?

< P>我将使用(由ANDONI开发的,这是一个很棒的家伙),它是用C++编写的。项目现场提到:

最新(不完全)LSH算法(2014):这些算法通过使用数据相关散列实现比经典LSH算法更好的性能。它们在汉明空间和欧几里德空间上都比经典的LSH算法有所改进。然而,与经典的LSH算法相比,这些算法不是动态的,后者使用数据独立散列,因此允许更新点集


如果您不想使用库,但出于某种原因您想开发自己的库,我建议您学习第一个库。

新的数据插入过程是否可以自定义/更改,或者您只能访问数据库而不能访问输入过程本身?