Python 词聚类

Python 词聚类,python,machine-learning,scikit-learn,cluster-computing,Python,Machine Learning,Scikit Learn,Cluster Computing,我想把一些词组合起来(以汽车品牌为例)。为了做到这一点,我不能使用k-means或k-medoids,所以我尝试使用Sklearn。我将它与距离库中的levenshtein或pyxdameraulevenshtein库中的damerau\u levenshtein\u距离一起使用 示例如下: 然而,这些指标并不是我所需要的。例如,梅赛德斯-奔驰和梅赛德斯的距离为5,与沃尔沃和菲亚特的距离相同。你们知道梅赛德斯-奔驰和梅赛德斯之间的相似性评分比沃尔沃和菲亚特更高的一些指标吗 谢谢, Djokx你可

我想把一些词组合起来(以汽车品牌为例)。为了做到这一点,我不能使用k-means或k-medoids,所以我尝试使用Sklearn。我将它与距离库中的
levenshtein
pyxdameraulevenshtein
库中的
damerau\u levenshtein\u距离一起使用

示例如下:

然而,这些指标并不是我所需要的。例如,梅赛德斯-奔驰和梅赛德斯的距离为5,与沃尔沃和菲亚特的距离相同。你们知道梅赛德斯-奔驰和梅赛德斯之间的相似性评分比沃尔沃和菲亚特更高的一些指标吗

谢谢,
Djokx

你可以使用Jaccard相似性,从构成这些单词的三个字母中提取。也就是说,您将每个单词分解为三个字符组成部分(对于volvo:vol、olv、lvo),并获得它们之间的Jaccard相似性集

Jaccard相似度定义为普通n-gram的数量与总n-gram的数量之间的比率