Machine learning weka中的svm文件格式_Machine Learning_Nlp_Weka

Machine learning weka中的svm文件格式

machine-learning nlp

Machine learning weka中的svm文件格式,machine-learning,nlp,weka,Machine Learning,Nlp,Weka,我想在weka中使用svm（smo）对文本进行分类。我拥有的文件包含一些句子（波斯语）和每个句子前面的一个单词，显示了它的类别。问题是：我应该把这些句子变成一个二进制向量，并把这些向量作为输入给weka吗？或者，如果我只是通过在weka中选择“字符串到单词向量”把这些句子变成向量就足够了吗示例文件：尽管在weka中选择“字符串到单词向量”是有效的，但最好根据1000个最常见的单词或任何其他特征将句子更改为向量。它工作得更快。您试过这两种方法吗？它们中有哪一个看起来比另一个更好（或者根本不起作

我想在weka中使用svm（smo）对文本进行分类。我拥有的文件包含一些句子（波斯语）和每个句子前面的一个单词，显示了它的类别。问题是：我应该把这些句子变成一个二进制向量，并把这些向量作为输入给weka吗？或者，如果我只是通过在weka中选择“字符串到单词向量”把这些句子变成向量就足够了吗

示例文件：

尽管在weka中选择“字符串到单词向量”是有效的，但最好根据1000个最常见的单词或任何其他特征将句子更改为向量。它工作得更快。

您试过这两种方法吗？它们中有哪一个看起来比另一个更好（或者根本不起作用）？@etov，我试了第二个。（将句子作为输入）。它返回了答案，但我不知道它是否正确。对于第一个，我不知道，根据什么因素，我应该把单词改成向量。事实上，我不知道哪一个是科学的。Weka中有StringToWordVector转换器，它可以做你想要的。至于这是否是科学的，请在