Python 从数据帧中删除类似的字符串重复项_Python_Pandas_Dataframe_Data Cleaning

Python 从数据帧中删除类似的字符串重复项

python pandas dataframe

Python 从数据帧中删除类似的字符串重复项,python,pandas,dataframe,data-cleaning,Python,Pandas,Dataframe,Data Cleaning,我有一个df，目前看起来像这样： Car Name Number Adam Leaf 9 Adamm Leaf 9 Adam Lea NaN Adam-Leaf NaN Adam/Leaf 9 Claire-Green NaN Cliare Green 3 Claire Green 3 Claire Gren NaN Claire/Green 3 我正在尝试删除这些变体以实现类似的效果 Car Name Number Ad

我有一个df，目前看起来像这样：

Car Name      Number
Adam Leaf     9
Adamm Leaf    9
Adam Lea      NaN
Adam-Leaf     NaN
Adam/Leaf     9
Claire-Green  NaN
Cliare Green  3
Claire Green  3
Claire Gren   NaN
Claire/Green  3

我正在尝试删除这些变体以实现类似的效果

Car Name      Number
Adam Leaf     9
Claire Green  3

这是水母的一条路

这可以通过计算Levenshtein距离来解决，或者更好地使用模糊模糊库

为什么要标记r和python？尽量说得更具体些。此外，你还必须更精确地解释相似名称的含义。相似名称指的是不正确变体的名称，即额外的字母、额外的符号、缺少的字母等。在你的条目上进行模糊匹配。查看结果，检查将使用哪个阈值标记为不正确的变体，并保留1以创建所需的数据帧输出。为什么要标记r和python？尽量说得更具体些。此外，你还必须更精确地解释相似名称的含义。相似名称指的是不正确变体的名称，即额外的字母、额外的符号、缺少的字母等。在你的条目上进行模糊匹配。查看结果，检查将使用哪个阈值标记为不正确的变体，并保留1以创建所需的数据帧输出。酷包名称！这给出了正确的车号，但是它似乎只是选择了nameTIL python的第一个变体，避免使用groupby函数，因为这将导致在应用groupby函数之前对数据进行完全洗牌。试试reduceByKey或类似的。酷包名！这给出了正确的车号，但是它似乎只是选择了nameTIL python的第一个变体，避免使用groupby函数，因为这将导致在应用groupby函数之前对数据进行完全洗牌。请尝试reduceByKey或类似产品。

import jellyfish

s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
              Car Name  Number
Car Name                      
A354         Adam Leaf     9.0
C462      Claire-Green     3.0