Python 识别单词的不同形式(搜索相似的单词)

Python 识别单词的不同形式(搜索相似的单词),python,search,nltk,Python,Search,Nltk,我有一个文本文件,里面有很多从网上提取的单词。现在,我计划构建一个简单的搜索来识别文本文件中的匹配项。例如,如果搜索参数为“3个火枪手”,我将寻找所有可能的匹配项,如下面提到的匹配项 Muskketeers3; three muskteers; 3Muskters; Musketeers3; 我不知道从哪里开始。我可以用python编写一些代码,并开始研究NLTK及其wordnet。我在这里寻找一些关于最佳方法的建议 任何想法 看看fuzzyfuzzy库 我确实查看了链接,其中有一个可用

我有一个文本文件,里面有很多从网上提取的单词。现在,我计划构建一个简单的搜索来识别文本文件中的匹配项。例如,如果搜索参数为“3个火枪手”,我将寻找所有可能的匹配项,如下面提到的匹配项

Muskketeers3;   
three muskteers;
3Muskters;
Musketeers3;
我不知道从哪里开始。我可以用python编写一些代码,并开始研究NLTK及其wordnet。我在这里寻找一些关于最佳方法的建议


任何想法

看看fuzzyfuzzy库


我确实查看了链接,其中有一个可用的字符串比较库列表。但复杂的是,如何获得所有形式的单词表示,如3,3,iii。。。有点像wordnet。。。感谢您的指导

Levenhstein distance?当您想扩展您的问题时,最好对其进行编辑或添加评论,而不是发布答案。