Python中字符串拼写错误时OneHotEncoder的替代方案

Python中字符串拼写错误时OneHotEncoder的替代方案,python,machine-learning,similarity,Python,Machine Learning,Similarity,在我的数据集中,我有一个代表国家名称的分类特征,但有时其中一些拼写错误 例如,“France”也可以写成“Francz”和“Franc” 您知道python中是否有任何现有的算法可以将字符串转换为与单词相似的数值。因此,对于我上面的示例,该值将非常相似?我担心我们没有现成的工具,但您可以调整NLTK,并根据您的要求使其工作 为了你的案子 import nltk print(nltk.edit_distance("France","Francz")) 代码打印1,因此您可以编写一个包含世界上所

在我的数据集中,我有一个代表国家名称的分类特征,但有时其中一些拼写错误

例如,“France”也可以写成“Francz”和“Franc”


您知道python中是否有任何现有的算法可以将字符串转换为与单词相似的数值。因此,对于我上面的示例,该值将非常相似?

我担心我们没有现成的工具,但您可以调整NLTK,并根据您的要求使其工作

为了你的案子

import nltk 
print(nltk.edit_distance("France","Francz"))
代码打印1,因此您可以编写一个包含世界上所有国家列表的函数,然后使用现有名称对拼写错误的国家运行edit_distance方法,并将距离分数最低的国家名称作为正确的国家名称

请在此查看更多示例:

我认为没有一种工具可以做到这一点。您可能需要通过更新此类行的国家名称来清理数据集。这种错误发生的频率是多少。如果它非常低,你可以忽略它。