Python LSH使用的哈希中的混淆

Python LSH使用的哈希中的混淆,python,hash,nearest-neighbor,locality-sensitive-hash,bigdata,Python,Hash,Nearest Neighbor,Locality Sensitive Hash,Bigdata,矩阵M是签名矩阵,它是通过对实际数据进行最小散列生成的,文档作为列,单词作为行。因此,列表示文档 现在它说每个条带(b在数字上,r在长度上)都有它的列散列,因此一列落在一个桶中。如果两列落在同一个桶中,对于>=1条条纹,则它们可能相似 这意味着我应该创建b哈希表并找到b独立的哈希函数?或者仅仅一个就足够了,每个条带都将其列发送到相同的bucket集合(但这不会取消条带吗) 在这种情况下,对于哈希表来说,一本字典就足够了吗* *我想我找到了答案,为未来的读者发帖 我将使用一个字典,因为幻灯片提到对

矩阵
M
是签名矩阵,它是通过对实际数据进行最小散列生成的,文档作为列,单词作为行。因此,列表示文档

现在它说每个条带(
b
在数字上,
r
在长度上)都有它的列散列,因此一列落在一个桶中。如果两列落在同一个桶中,对于>=1条条纹,则它们可能相似

这意味着我应该创建
b
哈希表并找到
b
独立的哈希函数?或者仅仅一个就足够了,每个条带都将其列发送到相同的bucket集合(但这不会取消条带吗)

在这种情况下,对于哈希表来说,一本字典就足够了吗*


*我想我找到了答案,为未来的读者发帖

我将使用一个字典,因为幻灯片提到对每个条带()使用相同的哈希函数是可以的

每一桶都是我们字典的钥匙


在插入时,一个文档(即属于条带的列)将被一个散列函数(我们将创建该函数)传递,结果应该是一个键。这样,我们的字典就会被填充。

我想我找到了答案,为未来的读者发帖

我将使用一个字典,因为幻灯片提到对每个条带()使用相同的哈希函数是可以的

每一桶都是我们字典的钥匙

在插入时,一个文档(即属于条带的列)将被一个散列函数(我们将创建该函数)传递,结果应该是一个键。这样我们的字典就会被填充