Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/heroku/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scikit learn 如何调试高置信度选择错误类的scikit分类器_Scikit Learn_Svm - Fatal编程技术网

Scikit learn 如何调试高置信度选择错误类的scikit分类器

Scikit learn 如何调试高置信度选择错误类的scikit分类器,scikit-learn,svm,Scikit Learn,Svm,我正在使用LogisticReturnal分类器对文档进行分类。结果良好(宏观平均f1=0.94)。我对预测结果(predict_proba)应用一个额外的步骤来检查分类是否足够“自信”(例如,第一类>0.5自信度,第二类>0.2自信度距离等)。否则,该样本将被丢弃为“未知” 对我来说最重要的分数是,尽管有这一额外步骤,但分配给错误类的样本数量。不幸的是,这个分数太高了(~0.03)。在许多情况下,分类器非常有信心(0.8-0.9999!)选择了正确的类 到目前为止,改变参数(C、class_权

我正在使用LogisticReturnal分类器对文档进行分类。结果良好(宏观平均f1=0.94)。我对预测结果(predict_proba)应用一个额外的步骤来检查分类是否足够“自信”(例如,第一类>0.5自信度,第二类>0.2自信度距离等)。否则,该样本将被丢弃为“未知”

对我来说最重要的分数是,尽管有这一额外步骤,但分配给错误类的样本数量。不幸的是,这个分数太高了(~0.03)。在许多情况下,分类器非常有信心(0.8-0.9999!)选择了正确的类

到目前为止,改变参数(C、class_权重、min_df、tokenizer)只会导致该分数的小幅下降,但正确分类的显著下降。然而,从几个样本和各个类中最具辨别力的特征来看,我无法理解这种高置信度是从何而来的。我假设可以丢弃这些样本中的大部分,而不丢弃明显更正确的样本


有没有办法调试/分析这种情况?产生这些高置信度值的原因可能是什么?

您是否尝试过使用例如@TomDLT来缩放数据?@TomDLT我正在使用TF-IDF值进行L2标准化的文本分类,这应该包括缩放数据。我在使用CNTK进行图像分类时遇到类似的问题。错误答案的高信心!!!我仍然没有线索……您是否尝试过使用例如@TomDLT来缩放数据?@TomDLT我正在使用TF-IDF值进行L2规范化的文本分类,这应该包括缩放数据。我在使用CNTK进行图像分类时也遇到了类似的问题。错误答案的高信心!!!我还是不知道。。。