Hash 使用哈希检测重复的文本片段

Hash 使用哈希检测重复的文本片段,hash,spam,text-analysis,Hash,Spam,Text Analysis,我正在尝试检测类似的文本片段,以阻止垃圾邮件发送者通过小改动发布相同的垃圾邮件片段 为此,我希望使用散列,而不是将所有句子保存在数据存储中。以节省空间并快速查找 我正在散列整个文本,没有标点符号或奇怪的字符,并比较散列以找到重复的垃圾邮件 但只要垃圾邮件发送者添加一个随机值,系统就会失败 有人有办法改进这个系统吗?我尝试过感知散列,但这似乎只对大块文本有效。好吧,散列基本上是这样的,你不会使用散列算法检测到“相似”的文本,因为它们被设计为在两个不同的测试用例中完全改变,即使差异是逗号。雪崩效应:

我正在尝试检测类似的文本片段,以阻止垃圾邮件发送者通过小改动发布相同的垃圾邮件片段

为此,我希望使用散列,而不是将所有句子保存在数据存储中。以节省空间并快速查找

我正在散列整个文本,没有标点符号或奇怪的字符,并比较散列以找到重复的垃圾邮件

但只要垃圾邮件发送者添加一个随机值,系统就会失败


有人有办法改进这个系统吗?我尝试过感知散列,但这似乎只对大块文本有效。

好吧,散列基本上是这样的,你不会使用散列算法检测到“相似”的文本,因为它们被设计为在两个不同的测试用例中完全改变,即使差异是逗号。雪崩效应:

删除标点符号/奇怪字符的好主意。如果你能找出垃圾邮件发送者在哪里添加值(例如在第1行末尾),你就可以剪切文本并从开始到第2行末尾进行散列(只是一个想法)。 您还可以散列文本的关键字(标题、产品…)