Python 从数据帧中删除类似的字符串重复项
我有一个df,目前看起来像这样:Python 从数据帧中删除类似的字符串重复项,python,pandas,dataframe,data-cleaning,Python,Pandas,Dataframe,Data Cleaning,我有一个df,目前看起来像这样: Car Name Number Adam Leaf 9 Adamm Leaf 9 Adam Lea NaN Adam-Leaf NaN Adam/Leaf 9 Claire-Green NaN Cliare Green 3 Claire Green 3 Claire Gren NaN Claire/Green 3 我正在尝试删除这些变体以实现类似的效果 Car Name Number Ad
Car Name Number
Adam Leaf 9
Adamm Leaf 9
Adam Lea NaN
Adam-Leaf NaN
Adam/Leaf 9
Claire-Green NaN
Cliare Green 3
Claire Green 3
Claire Gren NaN
Claire/Green 3
我正在尝试删除这些变体以实现类似的效果
Car Name Number
Adam Leaf 9
Claire Green 3
这是水母的一条路
这是水母的一条路
这可以通过计算Levenshtein距离来解决,或者更好地使用模糊模糊库
这可以通过计算Levenshtein距离来解决,或者更好地使用模糊模糊库
为什么要标记r和python?尽量说得更具体些。此外,你还必须更精确地解释相似名称的含义。相似名称指的是不正确变体的名称,即额外的字母、额外的符号、缺少的字母等。在你的条目上进行模糊匹配。查看结果,检查将使用哪个阈值标记为不正确的变体,并保留1以创建所需的数据帧输出。为什么要标记r和python?尽量说得更具体些。此外,你还必须更精确地解释相似名称的含义。相似名称指的是不正确变体的名称,即额外的字母、额外的符号、缺少的字母等。在你的条目上进行模糊匹配。查看结果,检查将使用哪个阈值标记为不正确的变体,并保留1以创建所需的数据帧输出。酷包名称!这给出了正确的车号,但是它似乎只是选择了nameTIL python的第一个变体,避免使用groupby函数,因为这将导致在应用groupby函数之前对数据进行完全洗牌。试试reduceByKey或类似的。酷包名!这给出了正确的车号,但是它似乎只是选择了nameTIL python的第一个变体,避免使用groupby函数,因为这将导致在应用groupby函数之前对数据进行完全洗牌。请尝试reduceByKey或类似产品。
import jellyfish
s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
Car Name Number
Car Name
A354 Adam Leaf 9.0
C462 Claire-Green 3.0