Python LSH使用的哈希中的混淆_Python_Hash_Nearest Neighbor_Locality Sensitive Hash_Bigdata

Python LSH使用的哈希中的混淆

python hash

Python LSH使用的哈希中的混淆,python,hash,nearest-neighbor,locality-sensitive-hash,bigdata,Python,Hash,Nearest Neighbor,Locality Sensitive Hash,Bigdata,矩阵M是签名矩阵，它是通过对实际数据进行最小散列生成的，文档作为列，单词作为行。因此，列表示文档现在它说每个条带（b在数字上，r在长度上）都有它的列散列，因此一列落在一个桶中。如果两列落在同一个桶中，对于>=1条条纹，则它们可能相似这意味着我应该创建b哈希表并找到b独立的哈希函数？或者仅仅一个就足够了，每个条带都将其列发送到相同的bucket集合（但这不会取消条带吗）在这种情况下，对于哈希表来说，一本字典就足够了吗* *我想我找到了答案，为未来的读者发帖我将使用一个字典，因为幻灯片提到对

矩阵

是签名矩阵，它是通过对实际数据进行最小散列生成的，文档作为列，单词作为行。因此，列表示文档

现在它说每个条带（

在数字上，

在长度上）都有它的列散列，因此一列落在一个桶中。如果两列落在同一个桶中，对于>=1条条纹，则它们可能相似

这意味着我应该创建

哈希表并找到

独立的哈希函数？或者仅仅一个就足够了，每个条带都将其列发送到相同的bucket集合（但这不会取消条带吗）

在这种情况下，对于哈希表来说，一本字典就足够了吗*

*我想我找到了答案，为未来的读者发帖

我将使用一个字典，因为幻灯片提到对每个条带（）使用相同的哈希函数是可以的

每一桶都是我们字典的钥匙

在插入时，一个文档（即属于条带的列）将被一个散列函数（我们将创建该函数）传递，结果应该是一个键。这样，我们的字典就会被填充。

我想我找到了答案，为未来的读者发帖

我将使用一个字典，因为幻灯片提到对每个条带（）使用相同的哈希函数是可以的

每一桶都是我们字典的钥匙

在插入时，一个文档（即属于条带的列）将被一个散列函数（我们将创建该函数）传递，结果应该是一个键。这样我们的字典就会被填充