Hadoop Mahout支持词干分析吗？_Hadoop_Mahout_Stemming_Porter Stemmer

Hadoop Mahout支持词干分析吗？

hadoop

Hadoop Mahout支持词干分析吗？,hadoop,mahout,stemming,porter-stemmer,Hadoop,Mahout,Stemming,Porter Stemmer,我正在使用mahout使用LDA进行主题发现。为了准备数据，我使用seq2sparse对文档进行标记并创建n-grams。但是，默认情况下，它不支持词干分析。我想知道Mahout有没有内置词干？如果没有，我应该实施我自己的吗？有什么建议吗？您可以使用seq2sparse命令精确分析仪： $MAHOUT_HOME/bin/mahout seq2sparse ... --analyzerName (-a) analyzerName The cla

我正在使用mahout使用LDA进行主题发现。为了准备数据，我使用

seq2sparse

对文档进行标记并创建n-grams。但是，默认情况下，它不支持词干分析。我想知道Mahout有没有内置词干？如果没有，我应该实施我自己的吗？有什么建议吗？

您可以使用

seq2sparse

命令精确分析仪：

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer

analyzer是Apache Lucene analyzer，因此您必须按照以下示例精确命名：

org.apache.lucene.analysis.fr.FrenchAnalyzer

我建议您阅读，以了解有关如何使用

seqsparse

命令的更多信息。你还需要读一些Lucene

PS:您应该使用与mahout中相同的lucene版本。

谢谢，所以我研究了Lucence，它看起来有不同的词干生成算法，即

EnglishMinimalStemmer

，

Englishtemmer

。你知道哪一个更好吗？我的另一个问题是如何找到我的lucene版本？词干算法应该响应您的需求和用例。我说不出哪个更好。你必须对两者进行评估，看看哪一个更适合你的模型。你可以在Mahout文档中找到Lucene的版本，甚至可以仔细看看。您不能在mahout源代码中尝试pom.xml。我试图将词干分析器作为分析器传递，但它给了我一条错误消息。看起来只有Englishanalyzer类（或类似的类，如FrenchAnalyze）可以使用，而不是词干分析器？您使用的是什么版本的mahout？