Text 基于Weka问题的文本分类

Text 基于Weka问题的文本分类,text,weka,categorization,Text,Weka,Categorization,我是文本分类的新手,我想用WEKA实现它。我是否必须像下面的ARFF文件那样构建一个有监督的培训集?我必须手工做,对吗? 在这之后,我该怎么办?使用朴素贝叶斯分类器预测测试集的类别 @relation test @attribute text String @attribute politics {yes,no} @attribute religion {yes,no} @attribute another_category {yes,no} @data "this is a text abo

我是文本分类的新手,我想用WEKA实现它。我是否必须像下面的ARFF文件那样构建一个有监督的培训集?我必须手工做,对吗? 在这之后,我该怎么办?使用朴素贝叶斯分类器预测测试集的类别

@relation test
@attribute text String
@attribute politics {yes,no}
@attribute religion {yes,no}
@attribute another_category {yes,no}

@data
"this is a text about politics",yes,no,no
"this text is about religion",no,yes,no
"this text mixes everything",yes,yes,yes

一旦加载了ARFF,就可以应用来构建单词列表。从那里,您可以使用分类器(如朴素贝叶斯)来预测您的类(您可能需要过滤其他属性,以确保它们也不会用作分类器的输入)


希望这有帮助

好的,谢谢,我做到了,但是我如何使用分类器来预测未标记的文本呢?它告诉我,训练集和测试集必须具有相同的属性(但我仅为训练集手动标记文本)。训练集和测试集应该包含相同的属性。请确保它们都被定义,错误应该消除(您是否分别构建了培训和测试数据?)谢谢!!我试图单独构建它,但我有这个错误