Stanford nlp CoreNLP(阿拉伯语)不正确的词性标记

Stanford nlp CoreNLP(阿拉伯语)不正确的词性标记,stanford-nlp,Stanford Nlp,我将斯坦福CoreNLP POS 3.3.1与HeidelTime一起用于时间分析(不幸的是,HeidelTime没有SO标签,所以我打开了一个问题并链接到这篇文章) 我专门研究阿拉伯语,在BBC的一篇阿拉伯语文章中,我注意到HeidelTime忽略了数字“6”,选择了“小时”,并理解为1小时。然后HeidelTime吐出值为PT1H的TIMEX3标记 例如,以下文本是我开始的内容: قبل6ساعة(“6小时之前”,从右到左阅读,分别是单词顺序,即“قبل”是“之前”) 之所以写这篇文章,是因

我将斯坦福CoreNLP POS 3.3.1与HeidelTime一起用于时间分析(不幸的是,HeidelTime没有SO标签,所以我打开了一个问题并链接到这篇文章)

我专门研究阿拉伯语,在BBC的一篇阿拉伯语文章中,我注意到HeidelTime忽略了数字“6”,选择了“小时”,并理解为1小时。然后HeidelTime吐出值为PT1H的TIMEX3标记

例如,以下文本是我开始的内容:

قبل6ساعة(“6小时之前”,从右到左阅读,分别是单词顺序,即“قبل”是“之前”)

之所以写这篇文章,是因为我在斯坦福大学的POS-Tagger(没有HeidelTime)上运行了相同的短语,它检测到:

ساعة/NN 6/CDبب/NN

所以,它标记了每个单词,虽然它检测到(قبل)是一个名词,但它应该(我相信)是一个介词

这是一个错误,还是因为BBC使用的原始短语的语法?我不认为原来的短语在语法上是正确的,“hour”应该是复数,或者(根据我的理解)在基数之前,在这一点上,它可以被保留为单数

即使它在语法上不正确,我也看不出“before”是名词的情况

编辑1作为后续,我将以下内容从英语翻译成阿拉伯语,并通过POS运行

孩子们出去之前,他们必须打扫房间

(四)(五)(五)(五)(五)(五。(转置)

POS返回以下内容:

(二)(二)(三)(三)(四)(四)(四)(四)(四)(四)()()(四))()()(()(四)))())(()))四)


将“before”(前)作为名词显示。这似乎是一个错误。

机器学习模型有错误率,也会出错。机器学习模型有错误率,也会出错。