R中聚类的降维(PCA和其他方法)

R中聚类的降维(PCA和其他方法),r,pca,feature-selection,dimensionality-reduction,R,Pca,Feature Selection,Dimensionality Reduction,让我先说一句: 我对这件事进行了广泛的研究,并发现了一些有趣的可能性(如和)。我还研究了主成分分析,我看到一些来源声称这是一种糟糕的降维方法。然而,我觉得这可能是一个好方法,但我不确定如何实施它。我在这件事上找到的所有来源都给出了很好的解释,但它们很少提供任何关于实际应用其中一种方法的建议(即如何在R中实际应用一种方法) 所以,我的问题是:有没有一个明确的方法来减少R的维数?我的数据集既包含数字变量又包含分类变量(具有多个级别),而且非常大(~40k个观察值,18个变量(但如果我将分类变量转换为

让我先说一句:

我对这件事进行了广泛的研究,并发现了一些有趣的可能性(如和)。我还研究了主成分分析,我看到一些来源声称这是一种糟糕的降维方法。然而,我觉得这可能是一个好方法,但我不确定如何实施它。我在这件事上找到的所有来源都给出了很好的解释,但它们很少提供任何关于实际应用其中一种方法的建议(即如何在R中实际应用一种方法)

所以,我的问题是:有没有一个明确的方法来减少R的维数?我的数据集既包含数字变量又包含分类变量(具有多个级别),而且非常大(~40k个观察值,18个变量(但如果我将分类变量转换为虚拟变量,则为37个))

有几点:

  • 如果我们想使用PCA,那么我必须以某种方式将分类变量转换为数值变量。简单地使用虚拟变量方法可以吗

  • 对于任何类型的无监督学习降维,我如何处理顺序变量?有序变量的概念在无监督学习中有意义吗

  • 我对主成分分析的真正问题是,当我进行主成分分析时。。我不知道该怎么处理它们。据我所知,每个主成分都是变量的组合,因此我不确定这如何帮助我们选择最好的变量


    • 我不认为这是一个严肃的问题。这更像是一个统计问题

      • PCA不适用于分类变量。PCA依赖于协方差矩阵的分解,这对分类变量不起作用
      • 序数变量在有监督和无监督学习中很有意义。你到底在找什么?如果顺序变量没有歪斜,并且有多个级别,则应仅对顺序变量应用PCA
      • PCA只提供主成分及其特征值方面的新变换。这与降维无关。我重复一遍,这与降维无关。只有在选择主成分的子集时,才能减少数据集。PCA对于回归、数据可视化、探索性分析等非常有用
      • 一种常见的方法是应用最佳缩放转换PCA的分类变量:
      请阅读以下内容:


      你也可以考虑分类变量和<强>多因子分析<强> >分类和连续。

      我不确定它是否属于这里。似乎这个问题更多的是关于如何进行适当的降维分析,这实际上更多的是一个统计问题,应该继续或继续。如果问题真的是用R来编码,那么问题应该包括一个示例输入数据(它不应该是您的整个数据集)。试着将与编程直接相关的部分和与编程无关的部分分开。