Python wordnet lemmatizer问题

Python wordnet lemmatizer问题,python,wordnet,Python,Wordnet,一,;我试过wordnet lemmatizer,但我发现一些常见的词,如“正在学习”或“等待”没有得到适当的处理 我遗漏了什么吗?正如你在在线wordnet上看到的那样,它们也是名词(以及动词动名词),因此它们可以自己被柠檬化也就不足为奇了 如果这不令人满意,你需要找到一个更具“攻击性”的柠檬化器(故意忽略对一个词的完全正确但“不太可能”的解释),或者,如果你可以首先基于整个句子进行词性标注,使用一个引理器,它可以告诉你,例如,学习的一个给定实例是否是一个动词而不是一个名词。正如你在在线wor

一,;我试过wordnet lemmatizer,但我发现一些常见的词,如“正在学习”或“等待”没有得到适当的处理


我遗漏了什么吗?

正如你在在线wordnet上看到的那样,它们也是名词(以及动词动名词),因此它们可以自己被柠檬化也就不足为奇了


如果这不令人满意,你需要找到一个更具“攻击性”的柠檬化器(故意忽略对一个词的完全正确但“不太可能”的解释),或者,如果你可以首先基于整个句子进行词性标注,使用一个引理器,它可以告诉你,例如,
学习的一个给定实例是否是一个动词而不是一个名词。

正如你在在线wordnet上看到的那样,它们也是名词(以及动词动名词),因此它们可以被引理化为自己也就不足为奇了


如果这不令人满意,你需要找到一个更具“攻击性”的柠檬化器(故意忽略对一个词的完全正确但“不太可能”的解释),或者,如果你可以首先基于整个句子进行词性标注,使用一个lemmatizer,该lemmatizer可以告诉您,例如,
学习的给定实例是否是动词而不是名词。

默认情况下,NLTK中的
单词netlemmatizer
假定该单词是一个
名词。看

要正确地对动词进行语法化,必须指定
pos
(词性)


默认情况下,NLTK中的
WordNetLemmatizer
假定该单词是
名词。看

要正确地对动词进行语法化,必须指定
pos
(词性)


请看,hmmm是否更明智地使用更激进的方法,如您提到的,如波特词干分析器,或首先进行词性标记。我担心性能,因为我需要处理相当多的文本块?@goh,词性标记不是很快,但它会更准确——我想你可能不想看到词干“awn”代表“awning”。但是,你会一直把这些词放在一个结构良好的句子的上下文中,还是有时需要单独处理它们?如果是后者,那么剩下的就是攻击性的词干分析器…:-(.实际上,我正在对博客进行分类。我需要从他们的博客内容推断他们是否来自我的学校。我有几个博客,可以从中开始爬行。其余的都会进行分类。我正在进行html剥离,然后进行单词标记,然后进行词性标记,过滤除名词以外的所有内容,并对它们进行分类。该功能分类器的res应该是我猜的名词。这是一个好方法吗?@goh,值得一试(问题是,毕竟,非常困难)——但是如果你无论如何都要用词性标记来获取名词,那么——为什么要保留例如名词
waiting
作为它自己的词干(它是一个名词)一点问题都没有?!嗯,像你提到的那样,使用一个更具攻击性的词干分析器,或者先做词性标注,这更明智吗?我担心性能,因为我需要处理相当多的文本块?@goh,词性标注不快,但会更准确——你可能不想看到stem“awn”代表“awning”,我怀疑。但是,你会一直把这些词放在一个结构良好的句子的上下文中,还是有时需要单独处理它们?如果是后者,那么攻击性词干就是剩下的…:-(.实际上,我正在对博客进行分类。我需要从他们的博客内容推断他们是否来自我的学校。我有几个博客,可以从中开始爬行。其余的都会进行分类。我正在进行html剥离,然后进行单词标记,然后进行词性标记,过滤除名词以外的所有内容,并对它们进行分类。该功能分类器的res应该是我猜的名词。这是一个好方法吗?@goh,值得一试(问题毕竟是非常困难的)——但是如果你无论如何都要用词性标记来获取名词,那么——为什么要保留例如名词
waiting
作为它自己的词干(作为名词)是一个问题?!
>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'