阿拉伯文柠檬化与斯坦福NLP

阿拉伯文柠檬化与斯坦福NLP,nlp,stanford-nlp,lexical-analysis,stemming,lemmatization,Nlp,Stanford Nlp,Lexical Analysis,Stemming,Lemmatization,我试着进行引理化,即识别引理,可能还有动词的阿拉伯语词根,例如: 引理(动词的不定式)=>根(三字词根/Jidr thoulathi) ==>ول 你认为斯坦福NLP能做到吗 最好的祝愿,斯坦福大学的阿拉伯语分词器不能进行真正的柠檬化。但是,可以训练一个新模型来执行类似于词干分析的操作: تتبن← ت+ك+ت يتل← ي+تل 如果输出是真正的阿拉伯引理非常重要(“تل”不是真正的引理),那么最好使用MADAMIRA()之类的工具 精化:斯坦福阿拉伯语分词器仅使用这些操作(在edu.St

我试着进行引理化,即识别引理,可能还有动词的阿拉伯语词根,例如: 引理(动词的不定式)=>根(三字词根/Jidr thoulathi) ==>ول

你认为斯坦福NLP能做到吗


最好的祝愿,

斯坦福大学的阿拉伯语分词器不能进行真正的柠檬化。但是,可以训练一个新模型来执行类似于词干分析的操作:

  • تتبن← ت+ك+ت
  • يتل← ي+تل
如果输出是真正的阿拉伯引理非常重要(“تل”不是真正的引理),那么最好使用MADAMIRA()之类的工具

精化:斯坦福阿拉伯语分词器仅使用这些操作(在
edu.Stanford.nlp.international.Arabic.process.IOBUtils
中实现)逐字符生成其输出:

  • 把一个字分成两个字符
  • 将lil-(للل)转换为li+al-(ل+ال)
  • 将ta(ت)或ha(ه)转化为ta马尔布塔(ة)
  • 将雅(ي)或阿利夫(ا)转化为阿利夫马克苏拉(ى)
  • 将alif maqsura(ى)转化为ya(ي)
因此,将“alif”转化为“alif+”需要实施额外的规则,即在ya或ta之后插入alif。某些不规则形式的柠檬化是完全不可能的(例如,نساء)← امأة)

可供下载的斯坦福分节器版本也仅断开代词和粒子:

وسكتفونه← و+س+يتشن+ه

但是,如果您可以访问LDC Arabic Treebank或类似丰富的带有形态学分段注释的阿拉伯语文本源,则可以训练您自己的模型删除所有形态学词缀,这更接近于柠檬化:

وسكتفونه← و+س+ي+ت+و+ن+ه

请注意,“كتشف”不是一个真正的阿拉伯语单词,但分词器至少应始终为تتتتن、ت、㶬等生成“كتت、ت等。如果这是可以接受的,则需要更改ATB预处理脚本注释,以改为使用形态学分词。您可以将名为
parse\u integrated
的脚本替换为如下修改版本:


然后按照自述文件中“训练分节器”的说明进行操作。

我不确定斯坦福NLP工具包是否有lammetizer,但您可以试试

  • 最先进的是
  • 阿拉伯加工宗教学校
Farasa Lemmatizer在精确度方面优于MADAMIRA Lemmatizer。准确率约为97.23%,在柠檬化任务中比MADAMIRA获得+7%的相对增益

您可以从以下链接阅读有关Farasa Lemmatizer的更多信息:

第一个谷歌结果:谢谢。我知道这一点,但我正在尝试使用斯坦福NLP工具对阿拉伯语单词进行柠檬化。