Python NLTK干词产生奇怪的结果_Python_Nlp_Nltk

Python NLTK干词产生奇怪的结果

python nlp

Python NLTK干词产生奇怪的结果,python,nlp,nltk,Python,Nlp,Nltk,运行nltk.stem.porter.PorterStemmer（）.stem\u单词（word）后，我得到了许多被“ing”截断的单词，或者用“I”替换了“y”。e、 g.“质量”变为“质量”，而（更奇怪的是）“价值”变为“价值” 由于产生的单词不是真正的英语单词，我不知道我该如何使用它们？我的最佳猜测是，我打算将词干词放入另一个函数中，该函数将为我提供来自该词干的所有派生词/子词（例如，“valu”将返回[“valueing”，“valued”，“values”，“values”…]。有这样

运行

nltk.stem.porter.PorterStemmer（）.stem\u单词（word）

后，我得到了许多被“ing”截断的单词，或者用“I”替换了“y”。e、 g.“质量”变为“质量”，而（更奇怪的是）“价值”变为“价值”

由于产生的单词不是真正的英语单词，我不知道我该如何使用它们？我的最佳猜测是，我打算将词干词放入另一个函数中，该函数将为我提供来自该词干的所有派生词/子词（例如，“valu”将返回

[“valueing”，“valued”，“values”，“values”…]

。有这样的功能吗？

词干分析通过一系列转换规则提取单词的词干，这些规则去除常见的后缀和前缀。因此产生的结果可能不是实际的英语单词。词干分析的一般用途是规范化单词，以便将它们视为相同的词。例如：

stem_word('value') == stem_word('valuing')

词干词可以被索引以进行搜索。相同的词干分析也会在传入查询中进行，以便查询词在执行查找时与索引中的词干词匹配。

我不熟悉该特定功能，但通常词干表示单词的词根，不一定是合法的英语单词

你在使用nltk的书吗？本章介绍词干分析：

你尝试过将这些单词进行词干分析吗？结果如何？所问问题的术语是词素。因此，更好的做法是使用原始的词干分析单词，并通过这样的函数而不是词干分析版本来获取wo的所有词素道路。