Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/redis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning SVM灯的训练和测试文件_Machine Learning_Svm_Svmlight - Fatal编程技术网

Machine learning SVM灯的训练和测试文件

Machine learning SVM灯的训练和测试文件,machine-learning,svm,svmlight,Machine Learning,Svm,Svmlight,我试图使用支持向量机的文本分类问题。我发现了一个名为SVM light的SVM实现及其派生的SVM多类(用于两类以上的分类问题)。然而,我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量(假设我将文档中的每个单词作为一个特征),然后对于每个文档,我必须指定它的类、它包含的特征(实际上是特征向量中特征的索引)和一个特征值,以创建训练文件。我对这个“特征值”感到困惑。可能是什么?这是本文档中该功能的计数吗?还是别的什么?网站包含的示例列车文件没有整数作为特征值,这表明不是形成

我试图使用支持向量机的文本分类问题。我发现了一个名为SVM light的SVM实现及其派生的SVM多类(用于两类以上的分类问题)。然而,我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量(假设我将文档中的每个单词作为一个特征),然后对于每个文档,我必须指定它的类、它包含的特征(实际上是特征向量中特征的索引)和一个特征值,以创建训练文件。我对这个“特征值”感到困惑。可能是什么?这是本文档中该功能的计数吗?还是别的什么?网站包含的示例列车文件没有整数作为特征值,这表明不是形成特征值的频率

另外,我想知道是否有一些工具/软件可以从一个简单的文档创建这个列车文件。我通常使用Java;因此,一些Java包来完成这项工作对我来说也足够了。我试着在谷歌上搜索,但找不到任何相关的东西

我还想知道是否有其他更好的方法使用支持向量机进行文本分类


在这方面的任何帮助都将不胜感激。

人们可以使用简单的二进制功能(单词是否出现?)或简单计数。但您可能希望通过计数的对数来缩放简单计数(更频繁的单词更重要,但出现10倍的单词并不比出现一次的单词重要10倍)

此外,您还可以通过考虑单词在所有文档中出现的频率等来衡量计数(即使单词
the
在文档中经常出现,但它实际上并不能说明文档的多少,因为它通常非常频繁)。看一看


SVM是正确的选择吗?我想说,找到正确的特征比精确的算法更重要,尤其是在早期阶段

功能本身呢?如果特征是一袋字,特征是否会增加数字顺序?