Python 从txt读取NLTK标记器_Python_Nltk_Pos Tagger

Python 从txt读取NLTK标记器

python

Python 从txt读取NLTK标记器,python,nltk,pos-tagger,Python,Nltk,Pos Tagger,我在python上使用NLTK。我想从txt中读取默认值、unigram和pos标记符。但是我没有这样做，因为txt没有特定的导入标记。例如，在课堂上，我们正在使用准备好的语料库，如brown等。我的问题是如何使用标记器导入方法。最后，我希望看到评估每个标记器的性能读取如下文件： f = open('your-file.txt', 'rU') # U is for Unicode raw = f.read() tokens = nltk.word_tokenize(raw) 一旦您拥有标记化

我在python上使用NLTK。我想从txt中读取默认值、unigram和pos标记符。但是我没有这样做，因为txt没有特定的导入标记。例如，在课堂上，我们正在使用准备好的语料库，如brown等。我的问题是如何使用标记器导入方法。最后，我希望看到评估每个标记器的性能

读取如下文件：

f = open('your-file.txt', 'rU') # U is for Unicode
raw = f.read()
tokens = nltk.word_tokenize(raw)

一旦您拥有标记化文本，您就可以继续标记它，例如：

def_tagger = nltk.DefaultTagger('NN')
def_tagger.tag(tokens)

这将（作为示例）将每个令牌标记为NN。要对其进行评估，您需要手动为每个单词指定一个标记，然后：

def_tagger.evaluate(you_manual_tagged_sents)

这将返回一个介于0（非常糟糕）和1（完美匹配）之间的数字