Machine learning 使用libsvm提高标准化精度的建议

Machine learning 使用libsvm提高标准化精度的建议,machine-learning,artificial-intelligence,svm,libsvm,Machine Learning,Artificial Intelligence,Svm,Libsvm,当我尝试使用libsvm对数据进行分类时,我遇到了一个问题。我的训练和测试数据极不平衡。当我对svm参数进行网格搜索并使用类的权重对数据进行训练时,测试的准确率为96.8113%。但由于测试数据的不平衡性,所有正确的预测值都来自负类,而负类大于正类 我尝试了很多方法,从更改权重到更改gamma和cost值,但每次尝试时我的标准化精度(考虑了正类和负类)都较低。使用默认的grid.py参数训练50%的积极因素和50%的消极因素我的精确度很低(18.4234%) 我想知道问题是在我的描述中(如何构建

当我尝试使用libsvm对数据进行分类时,我遇到了一个问题。我的训练和测试数据极不平衡。当我对svm参数进行网格搜索并使用类的权重对数据进行训练时,测试的准确率为96.8113%。但由于测试数据的不平衡性,所有正确的预测值都来自负类,而负类大于正类

我尝试了很多方法,从更改权重到更改gamma和cost值,但每次尝试时我的标准化精度(考虑了正类和负类)都较低。使用默认的grid.py参数训练50%的积极因素和50%的消极因素我的精确度很低(18.4234%)


我想知道问题是在我的描述中(如何构建特征向量),在不平衡中(我应该以另一种方式使用平衡数据吗?),还是应该更改分类器

更好的数据总是有帮助的

我认为不平衡是问题的一部分。但问题的一个更重要部分是如何评估分类器。考虑到数据中正、负的分布情况,评估准确性几乎是无用的。50%和50%的培训以及99%和1%的数据分布测试也是如此

在现实生活中,有一些问题与你所研究的问题类似(在积极和消极方面有很大的不平衡)。让我举两个例子:

  • 信息检索:给定大量集合中的所有文档,返回与搜索词q相关的子集

  • 人脸检测:这个大图像标记所有有人脸的位置

对于这些类型的系统,许多方法都是基于分类器的。要评估两个分类器,通常使用两种工具:、曲线和。当一个分类器比另一个分类器工作得更好时,这些工具提供了一种更具原则性的方法来评估