Machine learning 使用libsvm提高标准化精度的建议_Machine Learning_Artificial Intelligence_Svm_Libsvm

Machine learning 使用libsvm提高标准化精度的建议

machine-learning artificial-intelligence

Machine learning 使用libsvm提高标准化精度的建议,machine-learning,artificial-intelligence,svm,libsvm,Machine Learning,Artificial Intelligence,Svm,Libsvm,当我尝试使用libsvm对数据进行分类时，我遇到了一个问题。我的训练和测试数据极不平衡。当我对svm参数进行网格搜索并使用类的权重对数据进行训练时，测试的准确率为96.8113%。但由于测试数据的不平衡性，所有正确的预测值都来自负类，而负类大于正类我尝试了很多方法，从更改权重到更改gamma和cost值，但每次尝试时我的标准化精度（考虑了正类和负类）都较低。使用默认的grid.py参数训练50%的积极因素和50%的消极因素我的精确度很低（18.4234%）我想知道问题是在我的描述中（如何构建

当我尝试使用libsvm对数据进行分类时，我遇到了一个问题。我的训练和测试数据极不平衡。当我对svm参数进行网格搜索并使用类的权重对数据进行训练时，测试的准确率为96.8113%。但由于测试数据的不平衡性，所有正确的预测值都来自负类，而负类大于正类

我尝试了很多方法，从更改权重到更改gamma和cost值，但每次尝试时我的标准化精度（考虑了正类和负类）都较低。使用默认的grid.py参数训练50%的积极因素和50%的消极因素我的精确度很低（18.4234%）

我想知道问题是在我的描述中（如何构建特征向量），在不平衡中（我应该以另一种方式使用平衡数据吗？），还是应该更改分类器

更好的数据总是有帮助的

我认为不平衡是问题的一部分。但问题的一个更重要部分是如何评估分类器。考虑到数据中正、负的分布情况，评估准确性几乎是无用的。50%和50%的培训以及99%和1%的数据分布测试也是如此

在现实生活中，有一些问题与你所研究的问题类似（在积极和消极方面有很大的不平衡）。让我举两个例子：

信息检索：给定大量集合中的所有文档，返回与搜索词q相关的子集
人脸检测：这个大图像标记所有有人脸的位置

对于这些类型的系统，许多方法都是基于分类器的。要评估两个分类器，通常使用两种工具：、曲线和。当一个分类器比另一个分类器工作得更好时，这些工具提供了一种更具原则性的方法来评估