Python 为什么scikit学习逻辑回归工作良好，即使特征数远大于样本数_Python_Scikit Learn_Logistic Regression

Python 为什么scikit学习逻辑回归工作良好，即使特征数远大于样本数

python scikit-learn

Python 为什么scikit学习逻辑回归工作良好，即使特征数远大于样本数,python,scikit-learn,logistic-regression,Python,Scikit Learn,Logistic Regression,最近，我在做一些项目，获得了30个阳性样本和30个阴性样本。它们每个都有128个特征（128维）我使用“LeaveOneOut”和“sklearn.linear_model.LogisticRegression”对这些样本进行分类，得到了令人满意的结果（AUC 0.87）。我把结果告诉了我的朋友，他问如果只有60个样本，我怎么能计算参数，因为特征向量的维数大于样本数。现在我有同样的问题。我检查了工具包的源代码，仍然不知道这个问题。有人能帮我回答这个问题吗？谢谢您列出的情况是机器学习应用程

最近，我在做一些项目，获得了30个阳性样本和30个阴性样本。它们每个都有128个特征（128维）

我使用“LeaveOneOut”和“sklearn.linear_model.LogisticRegression”对这些样本进行分类，得到了令人满意的结果（AUC 0.87）。我把结果告诉了我的朋友，他问如果只有60个样本，我怎么能计算参数，因为特征向量的维数大于样本数。

现在我有同样的问题。我检查了工具包的源代码，仍然不知道这个问题。有人能帮我回答这个问题吗？谢谢

您列出的情况是机器学习应用程序中常见的情况，即与您的功能数量相比，您的培训示例数量有限（即m 基于对sklearn.linear_model.LogisticRegression的快速谷歌搜索，它似乎使用L2正则化实现了正则化逻辑回归。我鼓励你研究以下与正规化有关的问题：

我还建议阅读偏差/差异讨论，因为它涉及数据集的拟合不足和拟合过度：

在机器学习应用程序中，您列出的情况很常见，即与功能数量（即m 基于对sklearn.linear_model.LogisticRegression的快速谷歌搜索，它似乎使用L2正则化实现了正则化逻辑回归。我鼓励你研究以下与正规化有关的问题：

我还建议阅读偏差/差异讨论，因为它涉及数据集的拟合不足和拟合过度：

谢谢您的回答。我的代码与上的示例代码类似。唯一的区别是我的输入数据是60*128。看来正则化解决了这个问题。我将尝试了解更多关于这方面的信息。好的，然后我将阅读上面关于正则化和偏差/方差的链接，因为它与您的问题有关。有了大量的特征和相当数量的训练示例（在您的案例中，~50%），该算法可以开始识别在识别积极或消极假设中起作用的特征，以及识别贡献不大的特征（参数向量θ中的一小部分权重）。谢谢您的回答。我的代码与上的示例代码类似。唯一的区别是我的输入数据是60*128。看来正则化解决了这个问题。我将尝试了解更多关于这方面的信息。好的，然后我将阅读上面关于正则化和偏差/方差的链接，因为它与您的问题有关。有了大量的特征和相当数量的训练示例（在您的案例中，~50%），该算法可以开始识别在识别积极或消极假设中起作用的特征，以及识别贡献不大的特征（参数向量θ中的小权重）我想这是因为你的特殊数据。有方便的数据，其他数据可能会给你更糟糕的结果。我想这是因为你的特殊数据。有方便的数据，其他数据可能会给你更糟糕的结果。