Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/performance/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning LIBSVM分类的100%准确率-可能有什么问题?_Machine Learning_Classification_Svm_Libsvm - Fatal编程技术网

Machine learning LIBSVM分类的100%准确率-可能有什么问题?

Machine learning LIBSVM分类的100%准确率-可能有什么问题?,machine-learning,classification,svm,libsvm,Machine Learning,Classification,Svm,Libsvm,我正在建立一个利用LIBSVM对乳腺恶性肿瘤进行分类的模型。以下是我遵循的算法: 使用向后消除进行特征选择 使用网格搜索计算每组特征的C和gamma 使用10倍交叉验证得出最佳C和gamma 使用上述步骤,找到可能的最佳特征子集和最大精度 问题是,我使用LIBSVM在80:20的数据集上获得了100%的准确率。我没有排除任何功能,也没有对同一数据进行培训和测试。有什么提示我可能错了吗?以下是一些其他相关信息: cost = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 0.5,

我正在建立一个利用LIBSVM对乳腺恶性肿瘤进行分类的模型。以下是我遵循的算法:

  • 使用向后消除进行特征选择
  • 使用网格搜索计算每组特征的C和gamma
  • 使用10倍交叉验证得出最佳C和gamma
  • 使用上述步骤,找到可能的最佳特征子集和最大精度
  • 问题是,我使用LIBSVM在80:20的数据集上获得了100%的准确率。我没有排除任何功能,也没有对同一数据进行培训和测试。有什么提示我可能错了吗?以下是一些其他相关信息:

    cost = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 0.5, 1,
            2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10];
    g = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 2^-1, 1,
         2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10];
    most optimal C = 1;
    most optimal gamma = 9.7656e-04;
    Accuracy on 50:50 test:train dataset: 98.5337%
    Accuracy on 70:30 test:train dataset: 99.5122%
    Dataset used: University of Wisconsin breast cancer dataset (682 entries).
    

    小结:您没有抱怨其他两个数据集;100%的准确度与这些数据相当一致。什么使你认为你应该有一个较低的准确性

    让我们看看错误分类的计数:

    50:50 data set -- 5 / 341 errors
    70:30 data set -- 1 / 205 errors
    80:20 data set -- 0 / 136 errors
    
    80:20的结果与您之前的结果完全一致:您的准确率(显然)提高到99.8%以上


    从训练中要求最大的准确度表明,它可能很好地保留了所有特征,存在过度装配的明显危险。然而,由于您显然发现前两个数据集是可以接受的,因此我直觉认为该数据集是高度自一致的。从我的经验来看,这种一致性很奇怪,但你没有描述数据集的属性,甚至没有给我们提供样本或有用的链接来检查。

    总结:你没有抱怨其他两个数据集;100%的准确度与这些数据相当一致。什么使你认为你应该有一个较低的准确性

    让我们看看错误分类的计数:

    50:50 data set -- 5 / 341 errors
    70:30 data set -- 1 / 205 errors
    80:20 data set -- 0 / 136 errors
    
    80:20的结果与您之前的结果完全一致:您的准确率(显然)提高到99.8%以上


    从训练中要求最大的准确度表明,它可能很好地保留了所有特征,存在过度装配的明显危险。然而,由于您显然发现前两个数据集是可以接受的,因此我直觉认为该数据集是高度自一致的。根据我的经验,我觉得这种一致性很奇怪,但你没有描述数据集的属性,甚至没有给我们提供样本或有用的链接来检查。

    这是一个非常标准的数据集。很抱歉这么晚才发表评论,但这里有一个链接:描述:“相当标准的数据集”是一个令人费解的术语;我想我从来没有见过一个。:-)您是否希望看到某些向量被错误分类?你检查过模型的复杂度了吗?除了它的所有特性之外?嘿,伙计,我对ML很陌生。你能详细说明我如何检查模型的复杂度吗?你能访问经过训练的模型的系数吗?如果是这样的话,检查它们,看看有多少特征对评分函数有显著的贡献——比如说对于一些边界分类向量至少有10%。这是一个相当标准的数据集。很抱歉这么晚才发表评论,但这里有一个链接:描述:“相当标准的数据集”是一个令人费解的术语;我想我从来没有见过一个。:-)您是否希望看到某些向量被错误分类?你检查过模型的复杂度了吗?除了它的所有特性之外?嘿,伙计,我对ML很陌生。你能详细说明我如何检查模型的复杂度吗?你能访问经过训练的模型的系数吗?如果是这样的话,检查它们,看看有多少特征对评分函数有显著贡献——比如说,对于某些边界分类向量,至少有10%。