在pandas中创建基于字符串的集群_Pandas_Dataframe_Cluster Analysis

在pandas中创建基于字符串的集群

pandas dataframe

在pandas中创建基于字符串的集群,pandas,dataframe,cluster-analysis,Pandas,Dataframe,Cluster Analysis,我有一个大约200-300k的名字列表例如名称1 名称2 雷文先生亚历克斯弗雷迪基文格雷小姐莫恩詹姆斯肖恩尼奥维恩弗雷博尔特麦凯阿伦博士亚当斯阿尔斯雷错过。斯鲁特示例代码基于：产出： Cluster-0 Cluster-1 Cluster-2 Cluster-3 0 Reven Grey James Alen 1 Keven Frey Adames Alex 你有过模糊匹配吗？你对相

我有一个大约200-300k的名字列表

例如

名称1 名称2 雷文先生亚历克斯弗雷迪基文格雷小姐莫恩詹姆斯肖恩尼奥维恩弗雷博尔特麦凯阿伦博士亚当斯阿尔斯雷错过。斯鲁特示例代码基于：

产出：

  Cluster-0 Cluster-1 Cluster-2 Cluster-3
0     Reven      Grey     James      Alen
1     Keven      Frey    Adames      Alex

你有过模糊匹配吗？你对相似名称的精确定义是什么？如何计算你想要的相似值？看起来您希望名称具有相同的字符和相同的顺序，但如何定义两个名称是否类似地大于90%？@Ukrainian serge我尝试过，但不是为了这些逻辑，只是为了理解，我只是使用了一个非常小的示例来尝试。@example先生不一定顺序应该匹配。90%匹配在这个意义上，有许多算法，如leveishtin dist、Jaro Winkler、fuzzy wuzzy等。在这些算法中，最好的算法应该用于这些特定的逻辑，根据该分数给我精确的分数，然后收集匹配率较高的名称。我的解释清楚了吗？。请让我知道你是否说得很清楚。@RedVibes那么，我只是想知道，我的回答解决了这个问题，还是你认为我遗漏了什么？

  Cluster-0 Cluster-1 Cluster-2 Cluster-3
0     Reven      Grey     James      Alen
1     Keven      Frey    Adames      Alex