Python 在对数据集进行词干分析后,一些单词显示的方式不正确

Python 在对数据集进行词干分析后,一些单词显示的方式不正确,python,porter-stemmer,Python,Porter Stemmer,输出: tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ] porter_stemmed_texts = [] for i in range(0, len(tokenize_texts )): porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]] porte

输出:

tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ]

porter_stemmed_texts = []
for i in range(0, len(tokenize_texts )):
    porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]]
    porter_stemmed_texts.append(porter_stemmed_text)

porter_stemmed_texts
预期产出:-

[ ['mention', 'review', **'episod', 'exactli'**] ]

这些错误正常吗。我们不能得到100%准确的单词。

词干分析器工作正常

“插曲”应该以“插曲”结尾,这样它就可以以与“插曲”相同的方式结尾


“精确”->“Exactli”是算法中的一个怪癖,但最终并没有什么区别,因为您还应该对要比较的文本进行词干分析,因此一旦词干分析,它也将包含“Exactli”。

您希望从词干分析程序获得什么输出?还需要注意的是,Porter词干分析器被Snowball(Porter2)淘汰得差不多了。
[ ['mention', 'review', **'episode', 'exactly'**] ]