相似性哈希函数（simhash）_Hash_Hash Function_Simhash

相似性哈希函数（simhash）

hash

相似性哈希函数（simhash）,hash,hash-function,simhash,Hash,Hash Function,Simhash,我在使用哈希函数时遇到问题。我必须为文档中的每个单词分配一些数字（128位或64位）。因此，“相似性”的散列值必须与“相似性”相近。这意味着，如果相似性的值=>10022（比如说），那么相似性=>10025。应该用相似的词来表示。另外，不同名称的哈希值应该相似。这意味着，“john”的散列值也应该接近“michel”或“sita”。。。等等。如果有人知道的话提前感谢。：）有一个名为OpenNLP的库，因此通过使用该库，您可以知道它是什么类型的单词。然后，正如您所说，对于类似单词的名称，可以使

我在使用哈希函数时遇到问题。我必须为文档中的每个单词分配一些数字（128位或64位）。因此，“相似性”的散列值必须与“相似性”相近。这意味着，如果相似性的值=>10022（比如说），那么相似性=>10025。应该用相似的词来表示。另外，不同名称的哈希值应该相似。这意味着，“john”的散列值也应该接近“michel”或“sita”。。。等等。如果有人知道的话

提前感谢。：）

有一个名为OpenNLP的库，因此通过使用该库，您可以知道它是什么类型的单词。然后，正如您所说，对于类似单词的名称，可以使用write hash函数，其中的名称或动词可以得到类似的hash值。

谢谢。

它不是这样工作的，首先您必须找到可用数据样本值的通用模型，然后将其用于流日志消息。

Open library适用于通用英语，但事件日志不遵循通用英语模式。我不能在日志消息中使用它。如果你有什么想法？你需要解释哪一部分？可用数据样本值的模型如何？模型代表什么？