Nlp 如何从Lucene';s Porterstemmer(或任何词干分析器)

Nlp 如何从Lucene';s Porterstemmer(或任何词干分析器),nlp,Nlp,我正在使用PorterStemmer和Lucene来对单词进行词干分析。我不断地听到像“de”和“en”这样的词排在最前面。为了删除它们,我需要知道原来的单词是什么。有什么办法可以找到答案吗?您在使用Python吗?另外,为什么要删除排名靠前的单词呢?我正在使用Lucene和java。我想删除它们,因为它们在每个簇中都显示为最前面的单词。所以,我觉得他们可能没有向模型中添加任何有用的信息,只是噪声。在词干分析之前是否删除了停止词?是的。。但这句话还是“德”和“恩”不断出现。我也不能通过将测试词输

我正在使用PorterStemmer和Lucene来对单词进行词干分析。我不断地听到像“de”和“en”这样的词排在最前面。为了删除它们,我需要知道原来的单词是什么。有什么办法可以找到答案吗?

您在使用Python吗?另外,为什么要删除排名靠前的单词呢?我正在使用Lucene和java。我想删除它们,因为它们在每个簇中都显示为最前面的单词。所以,我觉得他们可能没有向模型中添加任何有用的信息,只是噪声。在词干分析之前是否删除了停止词?是的。。但这句话还是“德”和“恩”不断出现。我也不能通过将测试词输入词干分析器来复制它们。