Python中字符串拼写错误时OneHotEncoder的替代方案_Python_Machine Learning_Similarity

Python中字符串拼写错误时OneHotEncoder的替代方案

python machine-learning

Python中字符串拼写错误时OneHotEncoder的替代方案,python,machine-learning,similarity,Python,Machine Learning,Similarity,在我的数据集中，我有一个代表国家名称的分类特征，但有时其中一些拼写错误例如，“France”也可以写成“Francz”和“Franc” 您知道python中是否有任何现有的算法可以将字符串转换为与单词相似的数值。因此，对于我上面的示例，该值将非常相似？我担心我们没有现成的工具，但您可以调整NLTK，并根据您的要求使其工作为了你的案子 import nltk print(nltk.edit_distance("France","Francz")) 代码打印1，因此您可以编写一个包含世界上所

在我的数据集中，我有一个代表国家名称的分类特征，但有时其中一些拼写错误

例如，“France”也可以写成“Francz”和“Franc”

您知道python中是否有任何现有的算法可以将字符串转换为与单词相似的数值。因此，对于我上面的示例，该值将非常相似？

我担心我们没有现成的工具，但您可以调整NLTK，并根据您的要求使其工作

为了你的案子

import nltk 
print(nltk.edit_distance("France","Francz"))

代码打印1，因此您可以编写一个包含世界上所有国家列表的函数，然后使用现有名称对拼写错误的国家运行edit_distance方法，并将距离分数最低的国家名称作为正确的国家名称

请在此查看更多示例：

我认为没有一种工具可以做到这一点。您可能需要通过更新此类行的国家名称来清理数据集。这种错误发生的频率是多少。如果它非常低，你可以忽略它。