Machine learning 为什么主成分分析会降低逻辑回归的性能?
我用50000 X 370维的数据对一个二元分类问题进行了逻辑回归。我得到了大约90%的准确率。但是当我对数据进行PCA+Logistic时,我的准确率降低到了10%,看到这个结果我非常震惊。有人能解释一下可能出现的问题吗?不能保证PCA会有帮助,或者不会损害学习过程。特别是,如果您使用PCA来减少维度的数量-您正在从数据中删除信息,因此一切都可能发生-如果删除的数据是冗余的,您可能会得到更好的分数,如果这是问题的一个重要部分-您会变得更糟。即使不降低维度,但只要通过PCA“旋转”输入空间,就可以对过程既有利又有害-必须记住,PCA只是一种启发式,当涉及到监督学习时。PCA的唯一保证是,每个consequentive维将解释越来越少的方差,并且它是解释前K维方差的最佳仿射变换。这就是全部。这与实际问题完全无关,因为PCA根本不考虑标签。给定任何数据集,PCA将以一种仅取决于点位置的方式对其进行变换-因此对于某些标签(与数据的一般形状一致)-它可能会有所帮助,但对于许多其他标签(更复杂的标签模式)-它将破坏先前可检测的关系。此外,由于PCA导致某些缩放的变化,您可能需要分类器的不同超参数,例如LR的正则化强度 现在回到你的问题-我想说,在你的情况下,问题是。。。代码中的错误。您不能将准确度显著降低到50%以下。10%的准确率意味着,使用与分类器相反的将得到90%(当它说“真”时只回答“假”,反之亦然)。因此,即使PCA可能没有帮助(或者甚至可能有害,如前所述),在您的情况下,它肯定是代码中的错误。Machine learning 为什么主成分分析会降低逻辑回归的性能?,machine-learning,statistics,pca,logistic-regression,data-science,Machine Learning,Statistics,Pca,Logistic Regression,Data Science,我用50000 X 370维的数据对一个二元分类问题进行了逻辑回归。我得到了大约90%的准确率。但是当我对数据进行PCA+Logistic时,我的准确率降低到了10%,看到这个结果我非常震惊。有人能解释一下可能出现的问题吗?不能保证PCA会有帮助,或者不会损害学习过程。特别是,如果您使用PCA来减少维度的数量-您正在从数据中删除信息,因此一切都可能发生-如果删除的数据是冗余的,您可能会得到更好的分数,如果这是问题的一个重要部分-您会变得更糟。即使不降低维度,但只要通过PCA“旋转”输入空间,就可
- PCA在减少特征数量的同时并不关心类标签。它唯一关心的是保持最大方差,这对于分类任务来说可能并不总是最优的
- 另一方面,L1 Reg将那些与类标签没有太多关联的特性推向零。因此,L1 Reg努力减少特征数量,同时获得良好的分类性能
- 因此,L1正则化应优先于PCA,以减少特征数量。为了避免拟合不足,我们始终可以进行超参数调整以找到最佳lambda