Nlp 为什么Penn Treebank POS标记集对单词';到';?

Nlp 为什么Penn Treebank POS标记集对单词';到';?,nlp,pos-tagger,Nlp,Pos Tagger,“TO”这个词有一个单独的标记TO,不管它是用在介词意义上(例如我去了学校)还是不定式意义上(例如我想吃)。从整个NLP的角度来看,这有什么作用?仅将不定式单独标记为“to”是有直观意义的,但我看不出将不定式和介词组合在一个标记中背后的逻辑 谢谢,如果这不符合堆栈溢出准则,请道歉。不同的语料库提供不同的粒度级别。例如,将此与for to进行比较 我相信这可能是语料库标记实践的一个属性,而不是出于这样一个特定的NLP性能目的。这并不是说不可能想象这是一个设计的决定。(联系的作者进一步澄清。) 为了

“TO”这个词有一个单独的标记
TO
,不管它是用在介词意义上(例如
我去了学校
)还是不定式意义上(例如
我想吃
)。从整个NLP的角度来看,这有什么作用?仅将不定式单独标记为“to”是有直观意义的,但我看不出将不定式和介词组合在一个标记中背后的逻辑


谢谢,如果这不符合堆栈溢出准则,请道歉。

不同的语料库提供不同的粒度级别。例如,将此与for to进行比较

我相信这可能是语料库标记实践的一个属性,而不是出于这样一个特定的NLP性能目的。这并不是说不可能想象这是一个设计的决定。(联系的作者进一步澄清。)

为了使POS标记集不会对单词“to”有单独的标记,有时需要将“to”标记为介词,有时需要将“to”标记为不同的“不定式标记”。要实现这一点,人类标记者必须消除“to”两个角色之间的歧义。有些角色(需要语法判断)可能需要一些额外的时间来消除歧义,鉴于标记的语料库的大小,这也可能导致一些错误标记。如果信息增益(必须消除歧义的粒度)估计不太大,或者如果潜在的标记错误估计太多,那么这种权衡可能会在效率和正确性方面产生更大的错误