Machine learning SVM灯的训练和测试文件_Machine Learning_Svm_Svmlight

Machine learning SVM灯的训练和测试文件

machine-learning

Machine learning SVM灯的训练和测试文件,machine-learning,svm,svmlight,Machine Learning,Svm,Svmlight,我试图使用支持向量机的文本分类问题。我发现了一个名为SVM light的SVM实现及其派生的SVM多类（用于两类以上的分类问题）。然而，我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量（假设我将文档中的每个单词作为一个特征），然后对于每个文档，我必须指定它的类、它包含的特征（实际上是特征向量中特征的索引）和一个特征值，以创建训练文件。我对这个“特征值”感到困惑。可能是什么？这是本文档中该功能的计数吗？还是别的什么？网站包含的示例列车文件没有整数作为特征值，这表明不是形成

我试图使用支持向量机的文本分类问题。我发现了一个名为SVM light的SVM实现及其派生的SVM多类（用于两类以上的分类问题）。然而，我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量（假设我将文档中的每个单词作为一个特征），然后对于每个文档，我必须指定它的类、它包含的特征（实际上是特征向量中特征的索引）和一个特征值，以创建训练文件。我对这个“特征值”感到困惑。可能是什么？这是本文档中该功能的计数吗？还是别的什么？网站包含的示例列车文件没有整数作为特征值，这表明不是形成特征值的频率

另外，我想知道是否有一些工具/软件可以从一个简单的文档创建这个列车文件。我通常使用Java；因此，一些Java包来完成这项工作对我来说也足够了。我试着在谷歌上搜索，但找不到任何相关的东西

我还想知道是否有其他更好的方法使用支持向量机进行文本分类

在这方面的任何帮助都将不胜感激。

人们可以使用简单的二进制功能（单词是否出现？）或简单计数。但您可能希望通过计数的对数来缩放简单计数（更频繁的单词更重要，但出现10倍的单词并不比出现一次的单词重要10倍）

此外，您还可以通过考虑单词在所有文档中出现的频率等来衡量计数（即使单词

the

在文档中经常出现，但它实际上并不能说明文档的多少，因为它通常非常频繁）。看一看

SVM是正确的选择吗？我想说，找到正确的特征比精确的算法更重要，尤其是在早期阶段

功能本身呢？如果特征是一袋字，特征是否会增加数字顺序？