R中聚类的降维（PCA和其他方法）_R_Pca_Feature Selection_Dimensionality Reduction

R中聚类的降维（PCA和其他方法）

R中聚类的降维（PCA和其他方法）,r,pca,feature-selection,dimensionality-reduction,R,Pca,Feature Selection,Dimensionality Reduction,让我先说一句：我对这件事进行了广泛的研究，并发现了一些有趣的可能性（如和）。我还研究了主成分分析，我看到一些来源声称这是一种糟糕的降维方法。然而，我觉得这可能是一个好方法，但我不确定如何实施它。我在这件事上找到的所有来源都给出了很好的解释，但它们很少提供任何关于实际应用其中一种方法的建议（即如何在R中实际应用一种方法）所以，我的问题是：有没有一个明确的方法来减少R的维数？我的数据集既包含数字变量又包含分类变量（具有多个级别），而且非常大（~40k个观察值，18个变量（但如果我将分类变量转换为

让我先说一句：

我对这件事进行了广泛的研究，并发现了一些有趣的可能性（如和）。我还研究了主成分分析，我看到一些来源声称这是一种糟糕的降维方法。然而，我觉得这可能是一个好方法，但我不确定如何实施它。我在这件事上找到的所有来源都给出了很好的解释，但它们很少提供任何关于实际应用其中一种方法的建议（即如何在R中实际应用一种方法）

所以，我的问题是：有没有一个明确的方法来减少R的维数？我的数据集既包含数字变量又包含分类变量（具有多个级别），而且非常大（~40k个观察值，18个变量（但如果我将分类变量转换为虚拟变量，则为37个））

有几点：

如果我们想使用PCA，那么我必须以某种方式将分类变量转换为数值变量。简单地使用虚拟变量方法可以吗
对于任何类型的无监督学习降维，我如何处理顺序变量？有序变量的概念在无监督学习中有意义吗
我对主成分分析的真正问题是，当我进行主成分分析时。。我不知道该怎么处理它们。据我所知，每个主成分都是变量的组合，因此我不确定这如何帮助我们选择最好的变量

PCA不适用于分类变量。PCA依赖于协方差矩阵的分解，这对分类变量不起作用
序数变量在有监督和无监督学习中很有意义。你到底在找什么？如果顺序变量没有歪斜，并且有多个级别，则应仅对顺序变量应用PCA
PCA只提供主成分及其特征值方面的新变换。这与降维无关。我重复一遍，这与降维无关。只有在选择主成分的子集时，才能减少数据集。PCA对于回归、数据可视化、探索性分析等非常有用
一种常见的方法是应用最佳缩放转换PCA的分类变量：

你也可以考虑分类变量和<强>多因子分析<强> >分类和连续。