相似性哈希函数(simhash)

相似性哈希函数(simhash),hash,hash-function,simhash,Hash,Hash Function,Simhash,我在使用哈希函数时遇到问题。我必须为文档中的每个单词分配一些数字(128位或64位)。因此,“相似性”的散列值必须与“相似性”相近。这意味着,如果相似性的值=>10022(比如说),那么相似性=>10025。应该用相似的词来表示。另外,不同名称的哈希值应该相似。这意味着,“john”的散列值也应该接近“michel”或“sita”。。。等等。如果有人知道的话 提前感谢。:) 有一个名为OpenNLP的库,因此通过使用该库,您可以知道它是什么类型的单词。然后,正如您所说,对于类似单词的名称,可以使

我在使用哈希函数时遇到问题。我必须为文档中的每个单词分配一些数字(128位或64位)。因此,“相似性”的散列值必须与“相似性”相近。这意味着,如果相似性的值=>10022(比如说),那么相似性=>10025。应该用相似的词来表示。另外,不同名称的哈希值应该相似。这意味着,“john”的散列值也应该接近“michel”或“sita”。。。等等。如果有人知道的话


提前感谢。:)

有一个名为OpenNLP的库,因此通过使用该库,您可以知道它是什么类型的单词。然后,正如您所说,对于类似单词的名称,可以使用write hash函数,其中的名称或动词可以得到类似的hash值。
谢谢。

它不是这样工作的,首先您必须找到可用数据样本值的通用模型,然后将其用于流日志消息。

Open library适用于通用英语,但事件日志不遵循通用英语模式。我不能在日志消息中使用它。如果你有什么想法?你需要解释哪一部分?可用数据样本值的模型如何?模型代表什么?