词性标记-NLTK-Python

词性标记-NLTK-Python,python,nltk,Python,Nltk,我想使用word\u标记化、pos\u标记、FreqDist。默认情况下,我不想下载所有nltk。我想使用nltk.download(info\u或\u id='')。我应该在info\u或\u id中添加哪些选项以获取词性标记及其频率。词性标注-宾夕法尼亚树状词库词性。如果你查看语料库,每个描述都包括其id,例如brown、wordnet、book_语法。您选择哪一个取决于您的应用程序。查找标记的语料库,例如Brown include POS,我想您必须查看每个语料库才能看到。树库提到宾夕法尼

我想使用
word\u标记化、pos\u标记、FreqDist
。默认情况下,我不想下载所有
nltk
。我想使用
nltk.download(info\u或\u id='')
。我应该在
info\u或\u id
中添加哪些选项以获取词性标记及其频率。词性标注-宾夕法尼亚树状词库词性。

如果你查看语料库,每个描述都包括其id,例如brown、wordnet、book_语法。您选择哪一个取决于您的应用程序。查找标记的语料库,例如Brown include POS,我想您必须查看每个语料库才能看到。树库提到宾夕法尼亚树库(id树库),也指Sinica树库(id Sinica_树库)。请参见下文标题“解析语料库”

您的问题将
nltk
本身与
nltk\u数据混为一谈。您不能只下载nltk的一部分(尽管如果需要节省空间,您可以手动小心地将其删减)。但我认为你在试图避免下载所有nltk数据。正如@barny所写的,当您打开交互式
nltk.download()
窗口时,可以看到不同资源的ID

  • 要使用树库pos标记器,您需要它的pickle训练表(而不是树库语料库);您可以在ID
    maxent\u treebank\u pos\u标签下的“Models”选项卡中找到它们。(因此:
    nltk.download(“maxent\u treebank\u pos\u tagger”)

  • FreqDist
    类没有或不需要任何经过训练的模型

  • word\u-tokenize
    ,它将一个句子作为单个字符串并分解为单词。但是,您可能需要
    sent\u-tokenize
    的模型,该模型将较长的文本分解为句子。这由“Punkt”句子标记器处理,您可以使用
    nltk.download(“Punkt”)下载其模型)


  • 另外,对于一般用途,我建议下载“书籍”收藏中的所有内容,即
    nltk.download(“书籍”)
    。它只占总数的一小部分,而且它可以让你做大多数事情,而不必时不时地去弄清楚遗漏了什么。

    你所说的“词性标签-宾州Treebank词性”是什么意思?他的意思是词性-分析文本句子,例如动词/名词/副词。这是Python NLTK(自然语言工具包,在你提问之前)的功能之一。