Nlp 为什么Penn Treebank POS标记集对单词'；到'；？_Nlp_Pos Tagger

Nlp 为什么Penn Treebank POS标记集对单词'；到'；？

nlp

Nlp 为什么Penn Treebank POS标记集对单词'；到'；？,nlp,pos-tagger,Nlp,Pos Tagger,“TO”这个词有一个单独的标记TO，不管它是用在介词意义上（例如我去了学校）还是不定式意义上（例如我想吃）。从整个NLP的角度来看，这有什么作用？仅将不定式单独标记为“to”是有直观意义的，但我看不出将不定式和介词组合在一个标记中背后的逻辑谢谢，如果这不符合堆栈溢出准则，请道歉。不同的语料库提供不同的粒度级别。例如，将此与for to进行比较我相信这可能是语料库标记实践的一个属性，而不是出于这样一个特定的NLP性能目的。这并不是说不可能想象这是一个设计的决定。（联系的作者进一步澄清。）为了

“TO”这个词有一个单独的标记

TO

，不管它是用在介词意义上（例如

我去了学校

）还是不定式意义上（例如

我想吃

）。从整个NLP的角度来看，这有什么作用？仅将不定式单独标记为“to”是有直观意义的，但我看不出将不定式和介词组合在一个标记中背后的逻辑

谢谢，如果这不符合堆栈溢出准则，请道歉。

不同的语料库提供不同的粒度级别。例如，将此与for to进行比较

我相信这可能是语料库标记实践的一个属性，而不是出于这样一个特定的NLP性能目的。这并不是说不可能想象这是一个设计的决定。（联系的作者进一步澄清。）

为了使POS标记集不会对单词“to”有单独的标记，有时需要将“to”标记为介词，有时需要将“to”标记为不同的“不定式标记”。要实现这一点，人类标记者必须消除“to”两个角色之间的歧义。有些角色（需要语法判断）可能需要一些额外的时间来消除歧义，鉴于标记的语料库的大小，这也可能导致一些错误标记。如果信息增益（必须消除歧义的粒度）估计不太大，或者如果潜在的标记错误估计太多，那么这种权衡可能会在效率和正确性方面产生更大的错误