Hash 通过相似性哈希/度量进行字符串聚类

Hash 通过相似性哈希/度量进行字符串聚类,hash,cluster-analysis,hierarchical-clustering,Hash,Cluster Analysis,Hierarchical Clustering,我想将中等大小的10-20个字符的字符串汇总到组中。 这意味着,如果两个字符串非常相似,例如soccer和socer,则两者的哈希值应相似。以整数表示相似,或通过相似性度量返回0或1表示非常相似 是否有与聚类方法相关的基准或评估 现在我知道 直方图和一些。 这个 还是这个问题解决了很长时间,只有标准 提前非常感谢 要研究的最新技术可能有MinHash、LSH、WTA哈希等 您要寻找的不是集群,而是近乎重复的检测 例如,据报道,谷歌新闻(Google News)使用这种方法来检测几乎重复的新闻项目

我想将中等大小的10-20个字符的字符串汇总到组中。 这意味着,如果两个字符串非常相似,例如soccer和socer,则两者的哈希值应相似。以整数表示相似,或通过相似性度量返回0或1表示非常相似

是否有与聚类方法相关的基准或评估

现在我知道

直方图和一些。 这个 还是这个问题解决了很长时间,只有标准


提前非常感谢

要研究的最新技术可能有MinHash、LSH、WTA哈希等

您要寻找的不是集群,而是近乎重复的检测

例如,据报道,谷歌新闻(Google News)使用这种方法来检测几乎重复的新闻项目,而且有很多。在这里,您应该在字符上尝试相同的方法,可能还有n-gram