Machine learning Can'；t处理多类和连续的混合_Machine Learning_Scikit Learn_Classification

Machine learning Can'；t处理多类和连续的混合

machine-learning scikit-learn

Machine learning Can'；t处理多类和连续的混合,machine-learning,scikit-learn,classification,Machine Learning,Scikit Learn,Classification,输出有四个类：[0,1,2,3] 预测是[0,1]中的连续数（使用sigmoid函数后）我在sklearn中尝试了混淆矩阵、f1_分数，但在这两种情况下都有错误： ValueError: Can't handle mix of multiclass and continuous 若我将其简化为二进制分类器，并使用AUC对其求值，那个么就并没有错误，这意味着AUC可以处理连续的输入我的问题是，我在哪里可以找到sklearn中的评估，这样不仅可以处理多个类，还可以处理连续输入。在处理问题的细节

输出有四个类：[0,1,2,3] 预测是[0,1]中的连续数（使用sigmoid函数后）

我在sklearn中尝试了混淆矩阵、f1_分数，但在这两种情况下都有错误：

ValueError: Can't handle mix of multiclass and continuous

若我将其简化为二进制分类器，并使用AUC对其求值，那个么就并没有错误，这意味着AUC可以处理连续的输入

我的问题是，我在哪里可以找到sklearn中的评估，这样不仅可以处理多个类，还可以处理连续输入。

在处理问题的细节之前，您需要确保您了解AUC度量以及如何正确使用它

要了解AUC指标的含义，您可以开始
本质上，您希望获得基于不同阈值的预测列表（即每次移动它们并获得预测），计算每个阈值实例的假阳性率和假阴性率，然后计算它们的AUC
计算和评估多类AUC不是直截了当的。您可以找到更多信息，但我在下面附上一个好的代码片段，让您开始学习

# Compute macro-average ROC curve and ROC area # First aggregate all false positive rates, # assuming fpr is a list of false positive values per class all_fpr = np.unique(np.concatenate([fpr[i] for i in range(n_classes)])) # Then interpolate all ROC curves at this points mean_tpr = np.zeros_like(all_fpr) for i in range(n_classes): mean_tpr += interp(all_fpr, fpr[i], tpr[i]) # Finally average it and compute AUC mean_tpr /= n_classes fpr["macro"] = all_fpr tpr["macro"] = mean_tpr roc_auc["macro"] = auc(fpr["macro"], tpr["macro"]) # Plot all ROC curves plt.figure() plt.plot(fpr["micro"], tpr["micro"], label='micro-average ROC curve (area = {0:0.2f})' ''.format(roc_auc["micro"]), color='deeppink', linestyle=':', linewidth=4) plt.plot(fpr["macro"], tpr["macro"], label='macro-average ROC curve (area = {0:0.2f})' ''.format(roc_auc["macro"]), color='navy', linestyle=':', linewidth=4) colors = cycle(['aqua', 'darkorange', 'cornflowerblue']) for i, color in zip(range(n_classes), colors): plt.plot(fpr[i], tpr[i], color=color, lw=lw, label='ROC curve of class {0} (area = {1:0.2f})' ''.format(i, roc_auc[i])) plt.plot([0, 1], [0, 1], 'k--', lw=lw) plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('Some extension of Receiver operating characteristic to multi-class') plt.legend(loc="lower right") plt.show()

只是想说明一下-您正试图将其分类为4个类别中的一个，您对每个类别的预测是[0,1]范围内的数字？假设你得到这个输出-你如何选择分类类？好问题。首先，它们在[0,1]之间，因为我选择的激活是sigmoid函数。然后，绘制输出分布并选择三个阈值。因此，你得到[0,1]浮点数的1X4向量，选择3个阈值（如何？），然后选择什么？如何使用阈值？我得到一个[0,1]的1*n（数据集大小）数组。用x-y画它们。x是它们的值，y是对应于特定x的项目数。然后选取四个峰（中心极限定理），在每个峰之间找到三个阈值（可能在每个峰的中间）。我使用阈值来预测。