在pandas中创建基于字符串的集群

在pandas中创建基于字符串的集群,pandas,dataframe,cluster-analysis,Pandas,Dataframe,Cluster Analysis,我有一个大约200-300k的名字列表 例如 名称1 名称2 雷文先生 亚历克斯 弗雷迪 基文 格雷小姐 莫恩 詹姆斯 肖恩 尼奥维恩 弗雷 博尔特 麦凯 阿伦博士 亚当斯 阿尔斯雷 错过。斯鲁特 示例代码基于: 产出: Cluster-0 Cluster-1 Cluster-2 Cluster-3 0 Reven Grey James Alen 1 Keven Frey Adames Alex 你有过模糊匹配吗?你对相

我有一个大约200-300k的名字列表

例如

名称1 名称2 雷文先生 亚历克斯 弗雷迪 基文 格雷小姐 莫恩 詹姆斯 肖恩 尼奥维恩 弗雷 博尔特 麦凯 阿伦博士 亚当斯 阿尔斯雷 错过。斯鲁特 示例代码基于:

产出:

  Cluster-0 Cluster-1 Cluster-2 Cluster-3
0     Reven      Grey     James      Alen
1     Keven      Frey    Adames      Alex

你有过模糊匹配吗?你对相似名称的精确定义是什么?如何计算你想要的相似值?看起来您希望名称具有相同的字符和相同的顺序,但如何定义两个名称是否类似地大于90%?@Ukrainian serge我尝试过,但不是为了这些逻辑,只是为了理解,我只是使用了一个非常小的示例来尝试。@example先生不一定顺序应该匹配。90%匹配在这个意义上,有许多算法,如leveishtin dist、Jaro Winkler、fuzzy wuzzy等。在这些算法中,最好的算法应该用于这些特定的逻辑,根据该分数给我精确的分数,然后收集匹配率较高的名称。我的解释清楚了吗?。请让我知道你是否说得很清楚。@RedVibes那么,我只是想知道,我的回答解决了这个问题,还是你认为我遗漏了什么?
  Cluster-0 Cluster-1 Cluster-2 Cluster-3
0     Reven      Grey     James      Alen
1     Keven      Frey    Adames      Alex