Python 在对数据集进行词干分析后，一些单词显示的方式不正确_Python_Porter Stemmer

Python 在对数据集进行词干分析后，一些单词显示的方式不正确

python

Python 在对数据集进行词干分析后，一些单词显示的方式不正确,python,porter-stemmer,Python,Porter Stemmer,输出： tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ] porter_stemmed_texts = [] for i in range(0, len(tokenize_texts )): porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]] porte

输出：

tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ]

porter_stemmed_texts = []
for i in range(0, len(tokenize_texts )):
    porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]]
    porter_stemmed_texts.append(porter_stemmed_text)

porter_stemmed_texts

预期产出：-

[ ['mention', 'review', **'episod', 'exactli'**] ]

这些错误正常吗。我们不能得到100%准确的单词。

词干分析器工作正常

“插曲”应该以“插曲”结尾，这样它就可以以与“插曲”相同的方式结尾

“精确”->“Exactli”是算法中的一个怪癖，但最终并没有什么区别，因为您还应该对要比较的文本进行词干分析，因此一旦词干分析，它也将包含“Exactli”。

您希望从词干分析程序获得什么输出？还需要注意的是，Porter词干分析器被Snowball（Porter2）淘汰得差不多了。

[ ['mention', 'review', **'episode', 'exactly'**] ]