Hadoop Mahout支持词干分析吗?

Hadoop Mahout支持词干分析吗?,hadoop,mahout,stemming,porter-stemmer,Hadoop,Mahout,Stemming,Porter Stemmer,我正在使用mahout使用LDA进行主题发现。为了准备数据,我使用seq2sparse对文档进行标记并创建n-grams。但是,默认情况下,它不支持词干分析。我想知道Mahout有没有内置词干?如果没有,我应该实施我自己的吗?有什么建议吗?您可以使用seq2sparse命令精确分析仪: $MAHOUT_HOME/bin/mahout seq2sparse ... --analyzerName (-a) analyzerName The cla

我正在使用mahout使用LDA进行主题发现。为了准备数据,我使用
seq2sparse
对文档进行标记并创建n-grams。但是,默认情况下,它不支持词干分析。我想知道Mahout有没有内置词干?如果没有,我应该实施我自己的吗?有什么建议吗?

您可以使用
seq2sparse
命令精确分析仪:

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer 
analyzer是Apache Lucene analyzer,因此您必须按照以下示例精确命名:

org.apache.lucene.analysis.fr.FrenchAnalyzer
我建议您阅读,以了解有关如何使用
seqsparse
命令的更多信息。你还需要读一些Lucene


PS:您应该使用与mahout中相同的lucene版本。

谢谢,所以我研究了Lucence,它看起来有不同的词干生成算法,即
EnglishMinimalStemmer
Englishtemmer
。你知道哪一个更好吗?我的另一个问题是如何找到我的lucene版本?词干算法应该响应您的需求和用例。我说不出哪个更好。你必须对两者进行评估,看看哪一个更适合你的模型。你可以在Mahout文档中找到Lucene的版本,甚至可以仔细看看。您不能在mahout源代码中尝试pom.xml。我试图将词干分析器作为分析器传递,但它给了我一条错误消息。看起来只有Englishanalyzer类(或类似的类,如FrenchAnalyze)可以使用,而不是词干分析器?您使用的是什么版本的mahout?