Machine learning logistic回归预测概率

Machine learning logistic回归预测概率,machine-learning,scikit-learn,multiclass-classification,Machine Learning,Scikit Learn,Multiclass Classification,我目前正在使用scikit learn中的LogisticRegression解决多类分类问题。我决定使用LogisticRegression,因为我读了几篇文章,从它返回的预测概率来看,它是一个经过良好校准的算法 对于分类器的每个结果,我检查其预测概率以及分类观察结果与训练集中具有相同决策类的其他示例之间的距离 我感到惊讶的是,对于某些结果,即使一个类的预测置信度超过90%,但余弦相似性度量表明,给定的示例平均与训练集中具有相同类的示例集几乎正交 有人能提供一些线索来解释为什么会出现这种差异吗

我目前正在使用scikit learn中的LogisticRegression解决多类分类问题。我决定使用LogisticRegression,因为我读了几篇文章,从它返回的预测概率来看,它是一个经过良好校准的算法

对于分类器的每个结果,我检查其预测概率以及分类观察结果与训练集中具有相同决策类的其他示例之间的距离

我感到惊讶的是,对于某些结果,即使一个类的预测置信度超过90%,但余弦相似性度量表明,给定的示例平均与训练集中具有相同类的示例集几乎正交

有人能提供一些线索来解释为什么会出现这种差异吗


我希望对于那些与同一类的其他观测结果相差甚远的例子,逻辑回归算法将返回较低的预测概率。

逻辑回归/分类将提供决策边界的结果,但不能保证边界同一侧的点,即。,属于同一类别的人会有很小的余弦距离,甚至很小的欧几里德距离

考虑x-y平面中的点,其中y=0以下的所有点都属于一个类,而上面的所有点都属于另一个类。点-1000,1和1000,1属于同一类,但它们之间的余弦距离相对较大。另一方面,点1000、1和1000、-1属于不同的类别,但具有非常小的余弦距离