Machine learning weka中的svm文件格式

Machine learning weka中的svm文件格式,machine-learning,nlp,weka,Machine Learning,Nlp,Weka,我想在weka中使用svm(smo)对文本进行分类。我拥有的文件包含一些句子(波斯语)和每个句子前面的一个单词,显示了它的类别。问题是:我应该把这些句子变成一个二进制向量,并把这些向量作为输入给weka吗?或者,如果我只是通过在weka中选择“字符串到单词向量”把这些句子变成向量就足够了吗 示例文件: 尽管在weka中选择“字符串到单词向量”是有效的,但最好根据1000个最常见的单词或任何其他特征将句子更改为向量。它工作得更快。您试过这两种方法吗?它们中有哪一个看起来比另一个更好(或者根本不起作

我想在weka中使用svm(smo)对文本进行分类。我拥有的文件包含一些句子(波斯语)和每个句子前面的一个单词,显示了它的类别。问题是:我应该把这些句子变成一个二进制向量,并把这些向量作为输入给weka吗?或者,如果我只是通过在weka中选择“字符串到单词向量”把这些句子变成向量就足够了吗

示例文件:


尽管在weka中选择“字符串到单词向量”是有效的,但最好根据1000个最常见的单词或任何其他特征将句子更改为向量。它工作得更快。

您试过这两种方法吗?它们中有哪一个看起来比另一个更好(或者根本不起作用)?@etov,我试了第二个。(将句子作为输入)。它返回了答案,但我不知道它是否正确。对于第一个,我不知道,根据什么因素,我应该把单词改成向量。事实上,我不知道哪一个是科学的。Weka中有StringToWordVector转换器,它可以做你想要的。至于这是否是科学的,请在