Python 执行词干分析输出，以删除或连接单词_Python_Nlp_Nltk

Python 执行词干分析输出，以删除或连接单词

python nlp

Python 执行词干分析输出，以删除或连接单词,python,nlp,nltk,Python,Nlp,Nltk,我正在尝试使用python库NLTK进行自然语言处理我的问题：我正在尝试进行词干分析；将单词简化为规范化的形式。但它不能产生正确的词语。我是否正确使用了词干类？我怎样才能得到我想要的结果呢我想将以下词语规范化： words = ["forgot","forgotten","there's","myself","remuneration"] ……在这方面： words = ["forgot","forgot","there","myself","remunerate"] 我的代码： fro

我正在尝试使用python库NLTK进行自然语言处理

我的问题：我正在尝试进行词干分析；将单词简化为规范化的形式。但它不能产生正确的词语。我是否正确使用了词干类？我怎样才能得到我想要的结果呢

我想将以下词语规范化：

words = ["forgot","forgotten","there's","myself","remuneration"]

……在这方面：

words = ["forgot","forgot","there","myself","remunerate"]

我的代码：

from nltk import stem
words = ["forgot","forgotten","there's","myself","remuneration"]
for word in words:
    print stemmer.stem(word)

#output is:
#forgot forgotten there' myself remuner

有两种类型的规范化可以在单词级别执行

词干分析-一种快速而肮脏的方法，将单词转换成某种标记，这种标记不能保证是一个实际的单词，但通常相同单词的不同形式应该映射到相同的词干标记

引理化-将一个词转换成某种基本形式（单数、现在时态等），这种形式本身就是一个合法的词。这显然会更慢、更复杂，并且对于很多NLP任务来说通常不需要

你似乎在找一个柠檬加工机而不是茎干加工机。在堆栈溢出中搜索“柠檬化”应该会为您提供大量关于如何设置其中一个的线索。我玩过这个叫做的游戏，发现它非常有用而且很酷。

像adi92一样，我也相信你在寻找柠檬化。因为您使用的是NLTK，所以您可能会使用它的