Python NLTK Stanford POS标记器比预期慢_Python_Nltk_Pos Tagger

Python NLTK Stanford POS标记器比预期慢

python

Python NLTK Stanford POS标记器比预期慢,python,nltk,pos-tagger,Python,Nltk,Pos Tagger,斯坦福POS Tagger文档（）声称Tagger每秒可以写15000个单词。然而，我一秒钟能听到7个单词。我使用的是推荐的英语-left3words-distsim.tagger。我做错什么了吗？这是使用nltk库运行它的结果吗 from nltk.tag import StanfordPOSTagger jar = '/Users/marie/Desktop/StandfordParser/stanford-postagger-2015-12-09/stanford-postagger.ja

斯坦福POS Tagger文档（）声称Tagger每秒可以写15000个单词。然而，我一秒钟能听到7个单词。我使用的是推荐的英语-left3words-distsim.tagger。我做错什么了吗？这是使用nltk库运行它的结果吗

from nltk.tag import StanfordPOSTagger
jar = '/Users/marie/Desktop/StandfordParser/stanford-postagger-2015-12-09/stanford-postagger.jar'
model = '/Users/marie/Desktop/StandfordParser/stanford-postagger-2015-12-09/models/english-left3words-distsim.tagger'
tagger = StanfordPOSTagger(model, jar)

tokens = word_tokenize("What's the airspeed of an unladen swallow ?")

%timeit tagger.tag(tokens)

1 loop, best of 3: 1.01 s per loop

当您通过NLTK调用Stanford工具时，会有很多开销（目前，直到合并）。另请参见，您正在对启动成本进行折扣。使用15000个代币（使用

.tag\u sents（）

）进行呼叫，并查看需要多长时间。感谢您的帮助！使用tag_sents（）标记5000个句子大约需要5秒钟。