Nlp stanford tagger-标记速度

Nlp stanford tagger-标记速度,nlp,stanford-nlp,Nlp,Stanford Nlp,关于stanford tagger,我提供了我自己的标记语料库,用于训练stanford tagger的模型。然而,我意识到我的标记器模型的标记速度比默认的wsjleft3标记器模型慢得多。这可能是什么原因造成的?如何提高模型的速度?(除了Penn treebank标记集之外,我还添加了3或4个自定义标记)虽然添加更多功能(在arch中)通常会使其速度稍慢(因为功能提取是主要运行时成本之一),但速度的两大决定因素是: 中使用的上下文标记数 特点:left3words使用 上一个和第二个上一个标

关于stanford tagger,我提供了我自己的标记语料库,用于训练stanford tagger的模型。然而,我意识到我的标记器模型的标记速度比默认的wsjleft3标记器模型慢得多。这可能是什么原因造成的?如何提高模型的速度?(除了Penn treebank标记集之外,我还添加了3或4个自定义标记)

虽然添加更多功能(在arch中)通常会使其速度稍慢(因为功能提取是主要运行时成本之一),但速度的两大决定因素是:

  • 中使用的上下文标记数 特点:left3words使用 上一个和第二个上一个标签(2) 这也是相当快的,双向的 使用4(每侧两个),因此 非常慢。仅使用1的标记器 或0上下文标记要快得多 再说一遍
  • 标记集的一般大小,特别是可应用于未知单词的开放类标记集的大小。(但是添加3或4应该几乎没有什么区别——当您有一个包含数百个标记的标记集时,这是有问题的。)