Nlp stanford tagger-标记速度_Nlp_Stanford Nlp

Nlp stanford tagger-标记速度

nlp stanford-nlp

Nlp stanford tagger-标记速度,nlp,stanford-nlp,Nlp,Stanford Nlp,关于stanford tagger，我提供了我自己的标记语料库，用于训练stanford tagger的模型。然而，我意识到我的标记器模型的标记速度比默认的wsjleft3标记器模型慢得多。这可能是什么原因造成的？如何提高模型的速度？（除了Penn treebank标记集之外，我还添加了3或4个自定义标记）虽然添加更多功能（在arch中）通常会使其速度稍慢（因为功能提取是主要运行时成本之一），但速度的两大决定因素是：中使用的上下文标记数特点：left3words使用上一个和第二个上一个标

关于stanford tagger，我提供了我自己的标记语料库，用于训练stanford tagger的模型。然而，我意识到我的标记器模型的标记速度比默认的wsjleft3标记器模型慢得多。这可能是什么原因造成的？如何提高模型的速度？（除了Penn treebank标记集之外，我还添加了3或4个自定义标记）

虽然添加更多功能（在arch中）通常会使其速度稍慢（因为功能提取是主要运行时成本之一），但速度的两大决定因素是：

中使用的上下文标记数特点：left3words使用上一个和第二个上一个标签（2）这也是相当快的，双向的使用4（每侧两个），因此非常慢。仅使用1的标记器或0上下文标记要快得多再说一遍
标记集的一般大小，特别是可应用于未知单词的开放类标记集的大小。（但是添加3或4应该几乎没有什么区别——当您有一个包含数百个标记的标记集时，这是有问题的。）