Machine learning 如果多类分类器均匀分布未命中分类,则';即使分类器不好,它也会给出较高的AUC吗?

Machine learning 如果多类分类器均匀分布未命中分类,则';即使分类器不好,它也会给出较高的AUC吗?,machine-learning,scikit-learn,classification,roc,Machine Learning,Scikit Learn,Classification,Roc,我有一个多类分类问题,对于400个类,我得到了非常高的AUC分数(>0.94),对于如此多的类,这是出乎意料的高。肯定是出了问题。我有一个解释,但我需要有人验证我的推理是否属实 因此,在多类问题的情况下,如果我想使用ROC,我需要对类标签进行二值化(因为ROC适用于二值类问题)。现在,例如,如果我使用一对一配置(Hand and Till,2001),并且分类器将未命中分类(误报和误报)均匀地分布在许多(甚至所有)类上,那么对于任何一对类,我将不可避免地有少量的误报和少量的误报。因此,假阳性和假

我有一个多类分类问题,对于400个类,我得到了非常高的AUC分数(>0.94),对于如此多的类,这是出乎意料的高。肯定是出了问题。我有一个解释,但我需要有人验证我的推理是否属实

因此,在多类问题的情况下,如果我想使用ROC,我需要对类标签进行二值化(因为ROC适用于二值类问题)。现在,例如,如果我使用一对一配置(Hand and Till,2001),并且分类器将未命中分类(误报和误报)均匀地分布在许多(甚至所有)类上,那么对于任何一对类,我将不可避免地有少量的误报和少量的误报。因此,假阳性和假阴性的数量越少,真阳性率越高,假阳性率越低,因此AUC越高。因为这并不意味着分类基本上是正确的,所以在准确性、精确性或召回率方面,你会得到较低的分数。我在这里的推理有意义吗


我的数据集是平衡的。我正在使用sklearn的
roc\u auc\u分数
实现
ovo
配置。

你的问题是什么?“这有意义吗”不是我们能回答的问题。我将其标记为迁移到stats SE站点,但您可能仍然需要澄清您的确切问题。@Calimo如果您完整阅读,我相信我的问题非常清楚。仍然对有问题的部分进行了重新设计。谢谢你的关注。如果我的问题有什么特别不清楚的地方,我非常乐意进一步阐述。