Machine learning 如何从Weka文本分类输出结果文档_Machine Learning_Weka_Sentiment Analysis_Text Classification

Machine learning 如何从Weka文本分类输出结果文档

machine-learning

Machine learning 如何从Weka文本分类输出结果文档,machine-learning,weka,sentiment-analysis,text-classification,Machine Learning,Weka,Sentiment Analysis,Text Classification,因此，我们在一组15k条tweet上运行多项式朴素贝叶斯分类算法。我们首先根据Weka的StringToWordVector函数将每条推文分解为一个单词特征向量。然后，我们将结果保存到一个新的arff文件中，作为我们的训练集提供给用户。我们用另一组5k tweet重复这一过程，并使用从我们的训练集导出的相同模型重新评估测试集我们想做的是输出weka在测试集中分类的每个句子及其分类。。。我们可以看到算法性能和准确性的一般信息（精度、召回率、f分数），但我们无法看到weka根据我们的分类器分类的单

因此，我们在一组15k条tweet上运行多项式朴素贝叶斯分类算法。我们首先根据Weka的StringToWordVector函数将每条推文分解为一个单词特征向量。然后，我们将结果保存到一个新的arff文件中，作为我们的训练集提供给用户。我们用另一组5k tweet重复这一过程，并使用从我们的训练集导出的相同模型重新评估测试集

我们想做的是输出weka在测试集中分类的每个句子及其分类。。。我们可以看到算法性能和准确性的一般信息（精度、召回率、f分数），但我们无法看到weka根据我们的分类器分类的单个句子。。。有什么办法可以这样做吗

另一个问题是，最终我们的教授会给我们2万条推文，并期望我们对这篇新的文档进行分类。但是，我们不确定如何做到这一点，因为：

All of the data we have been working with has been classified manually, both the training and test sets...
however the data we will be getting from the professor will be UNclassified... How can we 
reevaluate our model on the unclassified data if Weka requires that the attribute information must
be the same as the set used to form the model and the test set we are evaluating against?

谢谢你的帮助

完成这些任务的最简单方法是使用

FilteredClassifier

。这种分类器集成了

过滤器

和

分类器

，因此您可以将

StringToOrdVector

过滤器与您喜欢的分类器连接（

J48

，

NaiveBayes

，无论什么），并且您将始终保留原始训练集（未处理的文本），通过使用

StringToWordVector

过滤器导出的人声，将分类器应用于新的tweet（未处理）

您可以在“”中的命令行和“”中的程序中看到如何执行此操作。

谢谢，我将尝试此操作！