Stanford nlp 标记为“的词性”;字;

Stanford nlp 标记为“的词性”;字;,stanford-nlp,Stanford Nlp,我在一些西班牙语文本上使用。根据他们的文档,词性标签来自此集合: 总的来说,我发现这是准确的,没有问题。然而,我只是遇到了一小段文字:“再见~hailey”。这被标记如下:Adiós_i~ \u word hailey_aq0000。因此,~符号,我认为应该有一个标点标记f0有一个word的标记。这是没有记录或预期的。这是一个bug还是预期 更新 事实证明,特殊的“单词”标记也出现在其他上下文中。我刚才看到的单词是it和á谢谢你的关注!我对文档的理解有点慢。。我刚刚更新了新的单词 在CoreNL

我在一些西班牙语文本上使用。根据他们的文档,词性标签来自此集合:

总的来说,我发现这是准确的,没有问题。然而,我只是遇到了一小段文字:“再见~hailey”。这被标记如下:
Adiós_i~ \u word hailey_aq0000
。因此,
~
符号,我认为应该有一个标点标记
f0
有一个
word
的标记。这是没有记录或预期的。这是一个bug还是预期

更新
事实证明,特殊的“单词”标记也出现在其他上下文中。我刚才看到的单词是
it
á

谢谢你的关注!我对文档的理解有点慢。。我刚刚更新了新的
单词

在CoreNLP 3.7.0版本中,我们加入了根据额外数据训练的新西班牙模型(特别是灵巧的西班牙树库V2)。一些新数据来自讨论论坛数据集(拉丁美洲-西班牙讨论论坛树库)。此数据集使用一个额外的POS标记,
word
,来标记表情符号和其他符号(例如®符号)


(我知道,这是一种愚蠢的名称选择——但我们想继续使用原始语料库使用的名称。)

谢谢Jon。这就解释了
~
,但是
它被贴上标签似乎很奇怪。这些是非母语人士写的文章,所以可能他们只是把标签弄错了??我想如果你转过头眯着眼睛看,这是一种表情符号。:)更严重的是:您提供的文本可能有问题,但更可能是因为标记器接收到的有关此
单词
标记的少量训练数据。在添加这个标签时,我们没有看到明显的性能下降,但是如果有足够多的人报告一个问题,我们可能会考虑添加一些重写。有一个想法是:“乔恩:用所有其他标记,你可以通过第一个字母来区分主要的“组”(名词、动词、标点等)。但是“单词”的第一个字母和日期相同,这给代码增加了一个特殊的大小写,否则代码只能根据第一个字母进行地图查找。最好将标记更改为不冲突的内容。