Python NLTK干词产生奇怪的结果

Python NLTK干词产生奇怪的结果,python,nlp,nltk,Python,Nlp,Nltk,运行nltk.stem.porter.PorterStemmer().stem\u单词(word)后,我得到了许多被“ing”截断的单词,或者用“I”替换了“y”。e、 g.“质量”变为“质量”,而(更奇怪的是)“价值”变为“价值” 由于产生的单词不是真正的英语单词,我不知道我该如何使用它们?我的最佳猜测是,我打算将词干词放入另一个函数中,该函数将为我提供来自该词干的所有派生词/子词(例如,“valu”将返回[“valueing”,“valued”,“values”,“values”…]。有这样

运行
nltk.stem.porter.PorterStemmer().stem\u单词(word)
后,我得到了许多被“ing”截断的单词,或者用“I”替换了“y”。e、 g.“质量”变为“质量”,而(更奇怪的是)“价值”变为“价值”


由于产生的单词不是真正的英语单词,我不知道我该如何使用它们?我的最佳猜测是,我打算将词干词放入另一个函数中,该函数将为我提供来自该词干的所有派生词/子词(例如,“valu”将返回
[“valueing”,“valued”,“values”,“values”…]
。有这样的功能吗?

词干分析通过一系列转换规则提取单词的词干,这些规则去除常见的后缀和前缀。因此产生的结果可能不是实际的英语单词。 词干分析的一般用途是规范化单词,以便将它们视为相同的词。例如:

stem_word('value') == stem_word('valuing')

词干词可以被索引以进行搜索。相同的词干分析也会在传入查询中进行,以便查询词在执行查找时与索引中的词干词匹配。

我不熟悉该特定功能,但通常词干表示单词的词根,不一定是合法的英语单词


你在使用nltk的书吗?本章介绍词干分析:

你尝试过将这些单词进行词干分析吗?结果如何?所问问题的术语是词素。因此,更好的做法是使用原始的词干分析单词,并通过这样的函数而不是词干分析版本来获取wo的所有词素道路。