Nlp 基于stanfordner的阿拉伯语语料库命名实体识别

Nlp 基于stanfordner的阿拉伯语语料库命名实体识别,nlp,stanford-nlp,named-entity-recognition,Nlp,Stanford Nlp,Named Entity Recognition,我想了解如何使用Stanford NER训练阿拉伯语语料库。我希望使用免费提供的语料库,如ANERCorp,可在此处获得: 我使用了以下道具文件: trainFile = ANERCorp serializeTo = aner-model.ser.gz map = word=0,answer=1 maxLeft=1 useClassFeature=true useWord=true useNGrams=true noMidNGrams=true maxNGramLeng=6 usePrev=t

我想了解如何使用Stanford NER训练阿拉伯语语料库。我希望使用免费提供的语料库,如ANERCorp,可在此处获得:

我使用了以下道具文件:

trainFile = ANERCorp
serializeTo = aner-model.ser.gz
map = word=0,answer=1
maxLeft=1
useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useDisjunctive=true
useSequences=true
usePrevSequences=true
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
然后,我使用以下方法训练模型:

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop t.prop
培训已成功运行并序列化到我的模型中。但当我测试模型时,我总是得到一个空白数据集,即没有实体被识别。我知道我正在以正确的方式进行测试,因为我能够按照同样的方法成功地在英语模型上测试英语文本


在道具文件中是否有专门为阿拉伯语设置的属性?以前有没有人试过在斯坦福NLP上训练一个阿拉伯语的ner?我知道这是使用LingPipe完成的,但我更喜欢使用SNLP。

阿拉伯语是一种非常不同的语言和脚本,您需要一些特殊功能来处理这种语言。斯坦福nlp网站并不声称斯坦福ner支持阿拉伯语,尽管他们的分词和词性标记支持阿拉伯语。见: