使用Lucene/Mahout查找预定义文档组中的定义术语

使用Lucene/Mahout查找预定义文档组中的定义术语,lucene,machine-learning,classification,mahout,tf-idf,Lucene,Machine Learning,Classification,Mahout,Tf Idf,我有一套文件,分为好的和坏的两类。我希望能够预测新文档将属于哪一类。我正在研究的一件事是找到最能定义每个类别的术语,并在新文档中查找这些术语 不久前,当我了解TF-IDF时,我正在使用Lucene术语向量进行Mahout聚类。在我看来,我所寻找的是类似的东西,我会从一个类别中找到术语频率,然后在另一个类别中应用这些术语的反向文档频率 是否有人知道最好的方法来找到唯一定义其中一个组(而不是另一个组)中文档的术语?我的建议是使用Mahout's。您将文档标记为“好”或“坏”,然后Mahout将能够预

我有一套文件,分为好的和坏的两类。我希望能够预测新文档将属于哪一类。我正在研究的一件事是找到最能定义每个类别的术语,并在新文档中查找这些术语

不久前,当我了解TF-IDF时,我正在使用Lucene术语向量进行Mahout聚类。在我看来,我所寻找的是类似的东西,我会从一个类别中找到术语频率,然后在另一个类别中应用这些术语的反向文档频率


是否有人知道最好的方法来找到唯一定义其中一个组(而不是另一个组)中文档的术语?

我的建议是使用Mahout's。您将文档标记为“好”或“坏”,然后Mahout将能够预测未经培训文档的标签。贝叶斯分类器上的维基百科


Lucene数据可以用作mahout的输入,例如,在类似的情况下,通常使用不同条件概率的比率

因此,在您的情况下,这将是:

p(w |良好)/p(w)

然后按这个排名

估计值仅为计数的最大可能性值:

p(w | good)=n(w,good)/n(good)

p(w)=n(w)/n=n(w)/(n(好)+n(坏))

N是总体语料库标记计数,N(*)是带限制的标记计数