Machine learning 如何在有监督机器学习分类问题中使用主成分分析?

Machine learning 如何在有监督机器学习分类问题中使用主成分分析?,machine-learning,pca,supervised-learning,principal-components,Machine Learning,Pca,Supervised Learning,Principal Components,我一直在研究R 我习惯于将PCA应用于(比如,标记的)数据集,并最终从矩阵中提取出最有趣的前几个主成分作为数值变量 从某种意义上说,最终的问题是,现在该怎么办?我在PCA上遇到的大多数阅读都会在计算完成后立即停止,特别是在机器学习方面。请原谅我的夸大其词,但我觉得好像每个人都同意这项技术是有用的,但没有人愿意在他们完成后实际使用它 更具体地说,这是我真正的问题: 我认为主成分是变量的线性组合。那么,这些转换后的数据如何在有监督的机器学习中发挥作用呢?有人怎么可能使用PCA作为数据集降维的一种方法

我一直在研究R

我习惯于将PCA应用于(比如,标记的)数据集,并最终从矩阵中提取出最有趣的前几个主成分作为数值变量

从某种意义上说,最终的问题是,现在该怎么办?我在PCA上遇到的大多数阅读都会在计算完成后立即停止,特别是在机器学习方面。请原谅我的夸大其词,但我觉得好像每个人都同意这项技术是有用的,但没有人愿意在他们完成后实际使用它

更具体地说,这是我真正的问题:

我认为主成分是变量的线性组合。那么,这些转换后的数据如何在有监督的机器学习中发挥作用呢?有人怎么可能使用PCA作为数据集降维的一种方法,然后将这些组件用于有监督的学习者,比如SVM

我完全不知道我们的标签会发生什么。一旦我们进入特征空间,很好。但是,如果这种转变打破了我们的分类概念,我看不到任何继续推进机器学习的方法(除非我没有遇到“是”或“否”的线性组合!)


如果你有时间和财力的话,请进来帮我澄清一下。提前感谢。

在对部分数据使用PCA计算变换矩阵后,在将其提交给分类器之前,将该矩阵应用于每个数据点

当数据的内在维度远小于组件的数量时,这非常有用,并且在分类过程中获得的性能增益抵得上PCA的精度损失和成本。此外,请记住PCA的局限性:

  • 在执行线性变换时,隐式假设所有组件都以等效单位表示
  • 除了方差之外,PCA对数据的结构是盲目的。数据很可能沿着低方差维度分裂。在这种情况下,分类器不会从转换的数据中学习

    • 这是一个老问题,但我认为这个问题没有得到令人满意的回答(我自己也是通过谷歌登陆的)。我发现自己和你一样,不得不自己寻找答案

      PCA的目标是以正交基W表示数据X;此新基准中的数据坐标为Z,如下所示:

      由于正交性,我们可以简单地通过变换W并写入:

      现在,为了降低维数,让我们选取一些分量k

      现在我们有了训练数据X的k维表示。现在您使用Z中的新特征运行一些监督的分类器

      关键是要认识到,在某种意义上,W是从p特征空间到k特征空间的规范变换(或者至少是我们可以使用训练数据找到的最佳变换)。因此,我们可以使用相同的W变换命中测试数据,从而得到一组k维测试特征:

      现在,我们可以使用在训练数据的k维表示上训练的同一分类器对测试数据的k维表示进行预测:


      完成整个过程的意义在于,您可能拥有数千个特征,但(1)并非所有特征都将具有有意义的信号,(2)您的监督学习方法可能过于复杂,无法在完整的特征集上进行训练(这可能需要很长时间,或者您的计算机没有足够的内存来处理计算)。PCA允许您大幅减少表示数据所需的特征数量,而不会消除数据中真正增加价值的特征。

      因此,在我将该矩阵应用于我的每个数据点(在我的训练集中)之后,然后我将它们提交给分类器…保留与这些数据点关联的标签?准确地说。PCA转换只是围绕原点旋转点。它不会影响它们的标签。是否监督PCA:)?