Hash 通过相似性哈希/度量进行字符串聚类_Hash_Cluster Analysis_Hierarchical Clustering

Hash 通过相似性哈希/度量进行字符串聚类

hash

Hash 通过相似性哈希/度量进行字符串聚类,hash,cluster-analysis,hierarchical-clustering,Hash,Cluster Analysis,Hierarchical Clustering,我想将中等大小的10-20个字符的字符串汇总到组中。这意味着，如果两个字符串非常相似，例如soccer和socer，则两者的哈希值应相似。以整数表示相似，或通过相似性度量返回0或1表示非常相似是否有与聚类方法相关的基准或评估现在我知道直方图和一些。这个还是这个问题解决了很长时间，只有标准提前非常感谢要研究的最新技术可能有MinHash、LSH、WTA哈希等您要寻找的不是集群，而是近乎重复的检测例如，据报道，谷歌新闻（Google News）使用这种方法来检测几乎重复的新闻项目

我想将中等大小的10-20个字符的字符串汇总到组中。这意味着，如果两个字符串非常相似，例如soccer和socer，则两者的哈希值应相似。以整数表示相似，或通过相似性度量返回0或1表示非常相似

是否有与聚类方法相关的基准或评估

现在我知道

直方图和一些。这个还是这个问题解决了很长时间，只有标准

提前非常感谢

要研究的最新技术可能有MinHash、LSH、WTA哈希等

您要寻找的不是集群，而是近乎重复的检测

例如，据报道，谷歌新闻（Google News）使用这种方法来检测几乎重复的新闻项目，而且有很多。在这里，您应该在字符上尝试相同的方法，可能还有n-gram