Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/310.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从数据帧中删除类似的字符串重复项_Python_Pandas_Dataframe_Data Cleaning - Fatal编程技术网

Python 从数据帧中删除类似的字符串重复项

Python 从数据帧中删除类似的字符串重复项,python,pandas,dataframe,data-cleaning,Python,Pandas,Dataframe,Data Cleaning,我有一个df,目前看起来像这样: Car Name Number Adam Leaf 9 Adamm Leaf 9 Adam Lea NaN Adam-Leaf NaN Adam/Leaf 9 Claire-Green NaN Cliare Green 3 Claire Green 3 Claire Gren NaN Claire/Green 3 我正在尝试删除这些变体以实现类似的效果 Car Name Number Ad

我有一个df,目前看起来像这样:

Car Name      Number
Adam Leaf     9
Adamm Leaf    9
Adam Lea      NaN
Adam-Leaf     NaN
Adam/Leaf     9
Claire-Green  NaN
Cliare Green  3
Claire Green  3
Claire Gren   NaN
Claire/Green  3
我正在尝试删除这些变体以实现类似的效果

Car Name      Number
Adam Leaf     9
Claire Green  3
这是水母的一条路

这是水母的一条路


这可以通过计算Levenshtein距离来解决,或者更好地使用模糊模糊库


这可以通过计算Levenshtein距离来解决,或者更好地使用模糊模糊库


为什么要标记r和python?尽量说得更具体些。此外,你还必须更精确地解释相似名称的含义。相似名称指的是不正确变体的名称,即额外的字母、额外的符号、缺少的字母等。在你的条目上进行模糊匹配。查看结果,检查将使用哪个阈值标记为不正确的变体,并保留1以创建所需的数据帧输出。为什么要标记r和python?尽量说得更具体些。此外,你还必须更精确地解释相似名称的含义。相似名称指的是不正确变体的名称,即额外的字母、额外的符号、缺少的字母等。在你的条目上进行模糊匹配。查看结果,检查将使用哪个阈值标记为不正确的变体,并保留1以创建所需的数据帧输出。酷包名称!这给出了正确的车号,但是它似乎只是选择了nameTIL python的第一个变体,避免使用groupby函数,因为这将导致在应用groupby函数之前对数据进行完全洗牌。试试reduceByKey或类似的。酷包名!这给出了正确的车号,但是它似乎只是选择了nameTIL python的第一个变体,避免使用groupby函数,因为这将导致在应用groupby函数之前对数据进行完全洗牌。请尝试reduceByKey或类似产品。
import jellyfish

s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
              Car Name  Number
Car Name                      
A354         Adam Leaf     9.0
C462      Claire-Green     3.0