Python 执行词干分析输出,以删除或连接单词

Python 执行词干分析输出,以删除或连接单词,python,nlp,nltk,Python,Nlp,Nltk,我正在尝试使用python库NLTK进行自然语言处理 我的问题:我正在尝试进行词干分析;将单词简化为规范化的形式。但它不能产生正确的词语。我是否正确使用了词干类?我怎样才能得到我想要的结果呢 我想将以下词语规范化: words = ["forgot","forgotten","there's","myself","remuneration"] ……在这方面: words = ["forgot","forgot","there","myself","remunerate"] 我的代码: fro

我正在尝试使用python库NLTK进行自然语言处理

我的问题:我正在尝试进行词干分析;将单词简化为规范化的形式。但它不能产生正确的词语。我是否正确使用了词干类?我怎样才能得到我想要的结果呢

我想将以下词语规范化:

words = ["forgot","forgotten","there's","myself","remuneration"]
……在这方面:

words = ["forgot","forgot","there","myself","remunerate"]
我的代码:

from nltk import stem
words = ["forgot","forgotten","there's","myself","remuneration"]
for word in words:
    print stemmer.stem(word)

#output is:
#forgot forgotten there' myself remuner

有两种类型的规范化可以在单词级别执行

  • 词干分析-一种快速而肮脏的方法,将单词转换成某种标记,这种标记不能保证是一个实际的单词,但通常相同单词的不同形式应该映射到相同的词干标记

  • 引理化-将一个词转换成某种基本形式(单数、现在时态等),这种形式本身就是一个合法的词。这显然会更慢、更复杂,并且对于很多NLP任务来说通常不需要


  • 你似乎在找一个柠檬加工机而不是茎干加工机。在堆栈溢出中搜索“柠檬化”应该会为您提供大量关于如何设置其中一个的线索。我玩过这个叫做的游戏,发现它非常有用而且很酷。

    像adi92一样,我也相信你在寻找柠檬化。因为您使用的是NLTK,所以您可能会使用它的