Stanford nlp CoreNLP（阿拉伯语）不正确的词性标记_Stanford Nlp

Stanford nlp CoreNLP（阿拉伯语）不正确的词性标记

stanford-nlp

Stanford nlp CoreNLP（阿拉伯语）不正确的词性标记,stanford-nlp,Stanford Nlp,我将斯坦福CoreNLP POS 3.3.1与HeidelTime一起用于时间分析（不幸的是，HeidelTime没有SO标签，所以我打开了一个问题并链接到这篇文章）我专门研究阿拉伯语，在BBC的一篇阿拉伯语文章中，我注意到HeidelTime忽略了数字“6”，选择了“小时”，并理解为1小时。然后HeidelTime吐出值为PT1H的TIMEX3标记例如，以下文本是我开始的内容： قبل6ساعة（“6小时之前”，从右到左阅读，分别是单词顺序，即“قبل”是“之前”）之所以写这篇文章，是因

我将斯坦福CoreNLP POS 3.3.1与HeidelTime一起用于时间分析（不幸的是，HeidelTime没有SO标签，所以我打开了一个问题并链接到这篇文章）

我专门研究阿拉伯语，在BBC的一篇阿拉伯语文章中，我注意到HeidelTime忽略了数字“6”，选择了“小时”，并理解为1小时。然后HeidelTime吐出值为PT1H的TIMEX3标记

例如，以下文本是我开始的内容：

قبل6ساعة（“6小时之前”，从右到左阅读，分别是单词顺序，即“قبل”是“之前”）

之所以写这篇文章，是因为我在斯坦福大学的POS-Tagger（没有HeidelTime）上运行了相同的短语，它检测到：

ساعة/NN 6/CDبب/NN

所以，它标记了每个单词，虽然它检测到（قبل）是一个名词，但它应该（我相信）是一个介词

这是一个错误，还是因为BBC使用的原始短语的语法？我不认为原来的短语在语法上是正确的，“hour”应该是复数，或者（根据我的理解）在基数之前，在这一点上，它可以被保留为单数

即使它在语法上不正确，我也看不出“before”是名词的情况

编辑1作为后续，我将以下内容从英语翻译成阿拉伯语，并通过POS运行

孩子们出去之前，他们必须打扫房间

(四)(五)(五)(五)(五)(五。（转置）

POS返回以下内容：

(二)(二)(三)(三)(四)(四)(四)(四)(四)(四)()()(四))()()(()(四)))())(()))四)

将“before”（前）作为名词显示。这似乎是一个错误。

机器学习模型有错误率，也会出错。机器学习模型有错误率，也会出错。