阿拉伯文柠檬化与斯坦福NLP
我试着进行引理化,即识别引理,可能还有动词的阿拉伯语词根,例如: 引理(动词的不定式)=>根(三字词根/Jidr thoulathi) ==>ول 你认为斯坦福NLP能做到吗阿拉伯文柠檬化与斯坦福NLP,nlp,stanford-nlp,lexical-analysis,stemming,lemmatization,Nlp,Stanford Nlp,Lexical Analysis,Stemming,Lemmatization,我试着进行引理化,即识别引理,可能还有动词的阿拉伯语词根,例如: 引理(动词的不定式)=>根(三字词根/Jidr thoulathi) ==>ول 你认为斯坦福NLP能做到吗 最好的祝愿,斯坦福大学的阿拉伯语分词器不能进行真正的柠檬化。但是,可以训练一个新模型来执行类似于词干分析的操作: تتبن← ت+ك+ت يتل← ي+تل 如果输出是真正的阿拉伯引理非常重要(“تل”不是真正的引理),那么最好使用MADAMIRA()之类的工具 精化:斯坦福阿拉伯语分词器仅使用这些操作(在edu.St
最好的祝愿,斯坦福大学的阿拉伯语分词器不能进行真正的柠檬化。但是,可以训练一个新模型来执行类似于词干分析的操作:
- تتبن← ت+ك+ت
- يتل← ي+تل
edu.Stanford.nlp.international.Arabic.process.IOBUtils
中实现)逐字符生成其输出:
- 把一个字分成两个字符
- 将lil-(للل)转换为li+al-(ل+ال)
- 将ta(ت)或ha(ه)转化为ta马尔布塔(ة)
- 将雅(ي)或阿利夫(ا)转化为阿利夫马克苏拉(ى)
- 将alif maqsura(ى)转化为ya(ي)
parse\u integrated
的脚本替换为如下修改版本:
然后按照自述文件中“训练分节器”的说明进行操作。我不确定斯坦福NLP工具包是否有lammetizer,但您可以试试
- 最先进的是
- 阿拉伯加工宗教学校
第一个谷歌结果:谢谢。我知道这一点,但我正在尝试使用斯坦福NLP工具对阿拉伯语单词进行柠檬化。