Python NLTK Stanford POS标记器比预期慢

Python NLTK Stanford POS标记器比预期慢,python,nltk,pos-tagger,Python,Nltk,Pos Tagger,斯坦福POS Tagger文档()声称Tagger每秒可以写15000个单词。然而,我一秒钟能听到7个单词。我使用的是推荐的英语-left3words-distsim.tagger。我做错什么了吗?这是使用nltk库运行它的结果吗 from nltk.tag import StanfordPOSTagger jar = '/Users/marie/Desktop/StandfordParser/stanford-postagger-2015-12-09/stanford-postagger.ja

斯坦福POS Tagger文档()声称Tagger每秒可以写15000个单词。然而,我一秒钟能听到7个单词。我使用的是推荐的英语-left3words-distsim.tagger。我做错什么了吗?这是使用nltk库运行它的结果吗

from nltk.tag import StanfordPOSTagger
jar = '/Users/marie/Desktop/StandfordParser/stanford-postagger-2015-12-09/stanford-postagger.jar'
model = '/Users/marie/Desktop/StandfordParser/stanford-postagger-2015-12-09/models/english-left3words-distsim.tagger'
tagger = StanfordPOSTagger(model, jar)

tokens = word_tokenize("What's the airspeed of an unladen swallow ?")

%timeit tagger.tag(tokens)

1 loop, best of 3: 1.01 s per loop

当您通过NLTK调用Stanford工具时,会有很多开销(目前,直到合并)。另请参见,您正在对启动成本进行折扣。使用15000个代币(使用
.tag\u sents()
)进行呼叫,并查看需要多长时间。感谢您的帮助!使用tag_sents()标记5000个句子大约需要5秒钟。