Machine learning 在Weka中使用字符串数据和分类

Machine learning 在Weka中使用字符串数据和分类,machine-learning,data-mining,weka,Machine Learning,Data Mining,Weka,我有一个数据集,它由一对字符串和它所属的类组成。 字符串是一个句子。该类可以是“男性”或“女性”。一个例子- “嗨!我叫杰克,男 我把它作为一个训练集来使用,这样,给定一组不同的字符串,它就可以对该语句来自男性还是女性进行分类。 我正在使用WEKA的stringtowordvector将字符串转换为包含该字符串中单词计数的向量。 使用生成的arff,我希望它生成一个预测算法(决策树?),我可以在未分类的数据集上使用它。 我该怎么做呢?我应该使用哪个分类器?在这种情况下,还有哪些其他预处理技术会有

我有一个数据集,它由一对字符串和它所属的类组成。 字符串是一个句子。该类可以是“男性”或“女性”。一个例子-

“嗨!我叫杰克,男

我把它作为一个训练集来使用,这样,给定一组不同的字符串,它就可以对该语句来自男性还是女性进行分类。 我正在使用WEKA的stringtowordvector将字符串转换为包含该字符串中单词计数的向量。 使用生成的arff,我希望它生成一个预测算法(决策树?),我可以在未分类的数据集上使用它。
我该怎么做呢?我应该使用哪个分类器?在这种情况下,还有哪些其他预处理技术会有所帮助呢?

也许可以从Weka主页上的简单消息分类器示例(和)开始,或者 这个


几乎任何线性分类器都是一个很好的起点。我建议您选择或作为一个良好的起点。

您的逻辑回归和支持向量机链接已断开。