Python 如何使用POS标记将阿拉伯语文本柠檬化?

Python 如何使用POS标记将阿拉伯语文本柠檬化?,python,nlp,nltk,arabic,lemmatization,Python,Nlp,Nltk,Arabic,Lemmatization,当我在阿拉伯语中使用lemmatize时,单词没有改变如何使用其POS标记将阿拉伯语文本lemmatize Wordnet lemmatizer只做英语。如果你想坚持使用nltk,可以使用阿拉伯语,但是如果你想用阿拉伯语进行真正的柠檬化,你可能得去别处看看。但是当我使用阿拉伯语词干分析时,如果我选择对文件进行词干分析,有时会返回无意义的单词。你认为这会对结果产生严重影响吗?或者我能得到我想要的可接受的结果吗获取txt文档中单词的频率我想将相互关联的单词简化为一个单词,如“قتتل,وو,تن,م

当我在阿拉伯语中使用lemmatize时,单词没有改变如何使用其POS标记将阿拉伯语文本lemmatize


Wordnet lemmatizer只做英语。如果你想坚持使用nltk,可以使用阿拉伯语,但是如果你想用阿拉伯语进行真正的柠檬化,你可能得去别处看看。但是当我使用阿拉伯语词干分析时,如果我选择对文件进行词干分析,有时会返回无意义的单词。你认为这会对结果产生严重影响吗?或者我能得到我想要的可接受的结果吗获取txt文档中单词的频率我想将相互关联的单词简化为一个单词,如“قتتل,وو,تن,مت,تل”我希望它们返回相同的单词,无论正确与否wrong@noura,花几分钟时间在nltk手册(或源代码)中搜索并了解词干分析和柠檬化算法是如何工作的。或者花一分钟考虑一下。你不能在阿拉伯语上使用英语lemmatizer,不管你多么想让你的项目使用lemmatizer。@alexis我尝试使用词干分析,但它仍然会给出无意义的单词。它会从单词的词根中删除一些字母,我至少想要词根