Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/243.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 功能词与内容词_Nlp_Stanford Nlp - Fatal编程技术网

Nlp 功能词与内容词

Nlp 功能词与内容词,nlp,stanford-nlp,Nlp,Stanford Nlp,我如何区分两者 我已经在使用,所以如果可能的话,我想利用它 更具体地说,我应该使用哪一个以及它如何标记内容/词汇 我试过了,但它没有区分功能词和内容词 注:我使用引理注释器来获得我想要忽略的单词 PPS。我使用。虚词(停止词)通常是手动整理的,因为它们因领域而异。您可以在NLTK中找到通用列表。CoreNLP也有一个 然而,您仍然应该查看它们,看看它们对您的用例是否有意义。我最近一直在使用技术语言,所以我从列表中删除了“it”,因为“it”是这个领域的首字母缩略词,因此是一个内容词 对于注释器,

我如何区分两者

我已经在使用,所以如果可能的话,我想利用它

更具体地说,我应该使用哪一个以及它如何标记内容/词汇

我试过了,但它没有区分功能词和内容词

注:我使用
引理
注释器来获得我想要忽略的单词

PPS。我使用。

虚词(停止词)通常是手动整理的,因为它们因领域而异。您可以在NLTK中找到通用列表。CoreNLP也有一个

然而,您仍然应该查看它们,看看它们对您的用例是否有意义。我最近一直在使用技术语言,所以我从列表中删除了“it”,因为“it”是这个领域的首字母缩略词,因此是一个内容词


对于注释器,您可以使用通用的TokenizerNotator,它将文本拆分为“单词”。然后,您可以检查每个单词,看看它是否存在于您的停止词列表中。如果您使用的是字符串,只需尝试在空白处拆分它们,并删除或标记停止字作为一种直觉检查。

如果您使用GitHub提供的Stanford CoreNLP版本,我们会分发一份停止字列表。就在这个路径上:这个链接展示了一个在Java中使用API的示例:因此,您可以做的一件事是遍历标记,看看它们是否在停止词列表中。
from nltk.corpus import stopwords
stops = stopwords.words('english')