使用Lucene/Mahout查找预定义文档组中的定义术语_Lucene_Machine Learning_Classification_Mahout_Tf Idf

使用Lucene/Mahout查找预定义文档组中的定义术语

lucene machine-learning

使用Lucene/Mahout查找预定义文档组中的定义术语,lucene,machine-learning,classification,mahout,tf-idf,Lucene,Machine Learning,Classification,Mahout,Tf Idf,我有一套文件，分为好的和坏的两类。我希望能够预测新文档将属于哪一类。我正在研究的一件事是找到最能定义每个类别的术语，并在新文档中查找这些术语不久前，当我了解TF-IDF时，我正在使用Lucene术语向量进行Mahout聚类。在我看来，我所寻找的是类似的东西，我会从一个类别中找到术语频率，然后在另一个类别中应用这些术语的反向文档频率是否有人知道最好的方法来找到唯一定义其中一个组（而不是另一个组）中文档的术语？我的建议是使用Mahout's。您将文档标记为“好”或“坏”，然后Mahout将能够预

我有一套文件，分为好的和坏的两类。我希望能够预测新文档将属于哪一类。我正在研究的一件事是找到最能定义每个类别的术语，并在新文档中查找这些术语

不久前，当我了解TF-IDF时，我正在使用Lucene术语向量进行Mahout聚类。在我看来，我所寻找的是类似的东西，我会从一个类别中找到术语频率，然后在另一个类别中应用这些术语的反向文档频率

是否有人知道最好的方法来找到唯一定义其中一个组（而不是另一个组）中文档的术语？

我的建议是使用Mahout's。您将文档标记为“好”或“坏”，然后Mahout将能够预测未经培训文档的标签。贝叶斯分类器上的维基百科

Lucene数据可以用作mahout的输入，例如，在类似的情况下，通常使用不同条件概率的比率

因此，在您的情况下，这将是：

p（w |良好）/p（w）

然后按这个排名

估计值仅为计数的最大可能性值：

p（w | good）=n（w，good）/n（good）

p（w）=n（w）/n=n（w）/（n（好）+n（坏））

N是总体语料库标记计数，N（*）是带限制的标记计数