Python 为什么scikit学习逻辑回归工作良好,即使特征数远大于样本数

Python 为什么scikit学习逻辑回归工作良好,即使特征数远大于样本数,python,scikit-learn,logistic-regression,Python,Scikit Learn,Logistic Regression,最近,我在做一些项目,获得了30个阳性样本和30个阴性样本。它们每个都有128个特征(128维) 我使用“LeaveOneOut”和“sklearn.linear_model.LogisticRegression”对这些样本进行分类,得到了令人满意的结果(AUC 0.87)。 我把结果告诉了我的朋友,他问如果只有60个样本,我怎么能计算参数,因为特征向量的维数大于样本数。 现在我有同样的问题。我检查了工具包的源代码,仍然不知道这个问题。有人能帮我回答这个问题吗?谢谢 您列出的情况是机器学习应用程

最近,我在做一些项目,获得了30个阳性样本和30个阴性样本。它们每个都有128个特征(128维)

我使用“LeaveOneOut”和“sklearn.linear_model.LogisticRegression”对这些样本进行分类,得到了令人满意的结果(AUC 0.87)。 我把结果告诉了我的朋友,他问如果只有60个样本,我怎么能计算参数,因为特征向量的维数大于样本数。


现在我有同样的问题。我检查了工具包的源代码,仍然不知道这个问题。有人能帮我回答这个问题吗?谢谢

您列出的情况是机器学习应用程序中常见的情况,即与您的功能数量相比,您的培训示例数量有限(即m 基于对sklearn.linear_model.LogisticRegression的快速谷歌搜索,它似乎使用L2正则化实现了正则化逻辑回归。我鼓励你研究以下与正规化有关的问题:

我还建议阅读偏差/差异讨论,因为它涉及数据集的拟合不足和拟合过度:


在机器学习应用程序中,您列出的情况很常见,即与功能数量(即m 基于对sklearn.linear_model.LogisticRegression的快速谷歌搜索,它似乎使用L2正则化实现了正则化逻辑回归。我鼓励你研究以下与正规化有关的问题:

我还建议阅读偏差/差异讨论,因为它涉及数据集的拟合不足和拟合过度:


谢谢您的回答。我的代码与上的示例代码类似。唯一的区别是我的输入数据是60*128。看来正则化解决了这个问题。我将尝试了解更多关于这方面的信息。好的,然后我将阅读上面关于正则化和偏差/方差的链接,因为它与您的问题有关。有了大量的特征和相当数量的训练示例(在您的案例中,~50%),该算法可以开始识别在识别积极或消极假设中起作用的特征,以及识别贡献不大的特征(参数向量θ中的一小部分权重)。谢谢您的回答。我的代码与上的示例代码类似。唯一的区别是我的输入数据是60*128。看来正则化解决了这个问题。我将尝试了解更多关于这方面的信息。好的,然后我将阅读上面关于正则化和偏差/方差的链接,因为它与您的问题有关。有了大量的特征和相当数量的训练示例(在您的案例中,~50%),该算法可以开始识别在识别积极或消极假设中起作用的特征,以及识别贡献不大的特征(参数向量θ中的小权重)我想这是因为你的特殊数据。有方便的数据,其他数据可能会给你更糟糕的结果。我想这是因为你的特殊数据。有方便的数据,其他数据可能会给你更糟糕的结果。