Nlp 文本分类-使用词干分析器会降低结果?

Nlp 文本分类-使用词干分析器会降低结果?,nlp,sentiment-analysis,stemming,text-classification,Nlp,Sentiment Analysis,Stemming,Text Classification,有一篇文章是关于阿拉伯语的情绪分析 第5页的开头写道: “实验还表明,在特征提取和分类之前进行词干提取几乎总是会降低结果” 随后在同一页中,他们声明: “…并使用阿拉伯语轻型词干分析器对单词进行词干分析” 嗯,我认为在文本分类之前总是使用词干分析器/柠檬酸盐分析器,为什么他说这会降低结果 谢谢:)我不懂阿拉伯语,可能在很多方面都很具体,我的答案是英语 嗯,我认为在文本分类之前总是使用词干分析器/柠檬酸盐分析器,为什么他说这会降低结果 不,它不是,完全取决于任务。如果您想提取文本的一些一般概念,那

有一篇文章是关于阿拉伯语的情绪分析

第5页的开头写道:

“实验还表明,在特征提取和分类之前进行词干提取几乎总是会降低结果”

随后在同一页中,他们声明:

“…并使用阿拉伯语轻型词干分析器对单词进行词干分析”

嗯,我认为在文本分类之前总是使用词干分析器/柠檬酸盐分析器,为什么他说这会降低结果


谢谢:)

我不懂阿拉伯语,可能在很多方面都很具体,我的答案是英语

嗯,我认为在文本分类之前总是使用词干分析器/柠檬酸盐分析器,为什么他说这会降低结果


不,它不是,完全取决于任务。如果您想提取文本的一些一般概念,那么词干/柠檬化是一个很好的步骤。但在分析每个单词都有价值的短语块时,词干只是破坏了它的意义。特别是在情感分析中,词干可能会破坏单词的情感

嗨@lejlot:)第一件事:谢谢。一个问题:“在分析短语块时,词干只是破坏了意思”?!你能提供一个解释/例子/来源吗?我引用了第二句话来说明最后他们确实使用了词干分析器。。。即使他们不该这么做?(顺便说一句:我也不懂阿拉伯语,但我想主要的区别在于它是一种非常有变化的语言)。词干只是一套缩短单词的规则,在这个过程中可能会失去它的意义。这有什么奇怪的?任何减少数据量的操作都会减少信息量。考虑一个Lancaster词干和单词:硬、硬、硬、硬;它们在英语中有完全不同的含义,都有相同的词干“hard”,这使得这个过程失去了很多信息;但首先,他们说它几乎总是减少结果,不总是,也许在他们的情况下,它没有发生,所以他们可以阻止,他们说他们使用的轻词干分析器可能是失去意义的“轻”。例如,Wordnet lemmatizer比lancaster stemmer轻得多……但它仍然在使用吗?我想这并不意味着什么,但我读了很多书,我不记得看到过没有词干的文本分类。有你。。。?再次感谢@lejlotYes,我的评论指出,可能是这样的,再次-光线可能是这里的关键点。是的,我见过几十种这样的(无词干分类),特别是基于比简单的词袋表示更先进的模型的现代方法,但这不是进行此类讨论的地方。