Python 在对数据集进行词干分析后,一些单词显示的方式不正确
输出:Python 在对数据集进行词干分析后,一些单词显示的方式不正确,python,porter-stemmer,Python,Porter Stemmer,输出: tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ] porter_stemmed_texts = [] for i in range(0, len(tokenize_texts )): porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]] porte
tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ]
porter_stemmed_texts = []
for i in range(0, len(tokenize_texts )):
porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]]
porter_stemmed_texts.append(porter_stemmed_text)
porter_stemmed_texts
预期产出:-
[ ['mention', 'review', **'episod', 'exactli'**] ]
这些错误正常吗。我们不能得到100%准确的单词。词干分析器工作正常 “插曲”应该以“插曲”结尾,这样它就可以以与“插曲”相同的方式结尾
“精确”->“Exactli”是算法中的一个怪癖,但最终并没有什么区别,因为您还应该对要比较的文本进行词干分析,因此一旦词干分析,它也将包含“Exactli”。您希望从词干分析程序获得什么输出?还需要注意的是,Porter词干分析器被Snowball(Porter2)淘汰得差不多了。
[ ['mention', 'review', **'episode', 'exactly'**] ]