词性标记-NLTK-Python_Python_Nltk

词性标记-NLTK-Python

python

词性标记-NLTK-Python,python,nltk,Python,Nltk,我想使用word\u标记化、pos\u标记、FreqDist。默认情况下，我不想下载所有nltk。我想使用nltk.download（info\u或\u id=''）。我应该在info\u或\u id中添加哪些选项以获取词性标记及其频率。词性标注-宾夕法尼亚树状词库词性。如果你查看语料库，每个描述都包括其id，例如brown、wordnet、book_语法。您选择哪一个取决于您的应用程序。查找标记的语料库，例如Brown include POS，我想您必须查看每个语料库才能看到。树库提到宾夕法尼

我想使用

word\u标记化、pos\u标记、FreqDist

。默认情况下，我不想下载所有

nltk

。我想使用

nltk.download（info\u或\u id=''）

。我应该在

info\u或\u id

中添加哪些选项以获取词性标记及其频率。词性标注-宾夕法尼亚树状词库词性。

如果你查看语料库，每个描述都包括其id，例如brown、wordnet、book_语法。您选择哪一个取决于您的应用程序。查找标记的语料库，例如Brown include POS，我想您必须查看每个语料库才能看到。树库提到宾夕法尼亚树库（id树库），也指Sinica树库（id Sinica_树库）。请参见下文标题“解析语料库”

您的问题将

nltk

本身与

nltk\u数据混为一谈。您不能只下载nltk的一部分（尽管如果需要节省空间，您可以手动小心地将其删减）。但我认为你在试图避免下载所有nltk数据。正如@barny所写的，当您打开交互式nltk.download（）
窗口时，可以看到不同资源的ID
要使用树库pos标记器，您需要它的pickle训练表（而不是树库语料库）；您可以在IDmaxent\u treebank\u pos\u标签下的“Models”选项卡中找到它们。（因此：nltk.download（“maxent\u treebank\u pos\u tagger”）

FreqDist
类没有或不需要任何经过训练的模型
word\u-tokenize
，它将一个句子作为单个字符串并分解为单词。但是，您可能需要sent\u-tokenize
的模型，该模型将较长的文本分解为句子。这由“Punkt”句子标记器处理，您可以使用nltk.download（“Punkt”）下载其模型)

另外，对于一般用途，我建议下载“书籍”收藏中的所有内容，即nltk.download（“书籍”）
。它只占总数的一小部分，而且它可以让你做大多数事情，而不必时不时地去弄清楚遗漏了什么。
你所说的“词性标签-宾州Treebank词性”是什么意思？他的意思是词性-分析文本句子，例如动词/名词/副词。这是Python NLTK（自然语言工具包，在你提问之前）的功能之一。