Python 从txt读取NLTK标记器
我在python上使用NLTK。我想从txt中读取默认值、unigram和pos标记符。但是我没有这样做,因为txt没有特定的导入标记。例如,在课堂上,我们正在使用准备好的语料库,如brown等。我的问题是如何使用标记器导入方法。最后,我希望看到评估每个标记器的性能 读取如下文件:Python 从txt读取NLTK标记器,python,nltk,pos-tagger,Python,Nltk,Pos Tagger,我在python上使用NLTK。我想从txt中读取默认值、unigram和pos标记符。但是我没有这样做,因为txt没有特定的导入标记。例如,在课堂上,我们正在使用准备好的语料库,如brown等。我的问题是如何使用标记器导入方法。最后,我希望看到评估每个标记器的性能 读取如下文件: f = open('your-file.txt', 'rU') # U is for Unicode raw = f.read() tokens = nltk.word_tokenize(raw) 一旦您拥有标记化
f = open('your-file.txt', 'rU') # U is for Unicode
raw = f.read()
tokens = nltk.word_tokenize(raw)
一旦您拥有标记化文本,您就可以继续标记它,例如:
def_tagger = nltk.DefaultTagger('NN')
def_tagger.tag(tokens)
这将(作为示例)将每个令牌标记为NN。要对其进行评估,您需要手动为每个单词指定一个标记,然后:
def_tagger.evaluate(you_manual_tagged_sents)
这将返回一个介于0(非常糟糕)和1(完美匹配)之间的数字