Hash 以可比较的方式编码文本

Hash 以可比较的方式编码文本,hash,Hash,让我们有两个文本文件,我们想比较他们的方式,它不是由字母。我正在寻找一种方法,将文本编码成长度N(例如256个字符)的哈希(如果单词哈希在这里合适)并允许进行比较 例如,让a='Text1',b='Text1',c='text12'和d='John'。我想要一种像这样的散列(这里是长度5) xyztrg xyutrg xyvtrg abcdef 我认为您需要的是位置敏感哈希: 这种技术以很高的概率将相似的输入项散列到相同的“bucket”中 根据您使用的编程语言的不同,有很多实现谢谢,但这并不

让我们有两个文本文件,我们想比较他们的方式,它不是由字母。我正在寻找一种方法,将文本编码成长度
N
(例如256个字符)的哈希(如果单词哈希在这里合适)并允许进行比较

例如,让
a='Text1',b='Text1',c='text12'
d='John'
。我想要一种像这样的散列(这里是长度5)

xyztrg
xyutrg
xyvtrg
abcdef

我认为您需要的是位置敏感哈希:

这种技术以很高的概率将相似的输入项散列到相同的“bucket”中


根据您使用的编程语言的不同,有很多实现

谢谢,但这并不能回答问题,因为每个文本文件都必须独立于其他文件进行编码。可以对每个文本文件独立于其他文件应用区分性的哈希。hash函数的构造使得相似的输入很可能给出相同的hash。