Scikit learn 为PCA缩放一个热编码变量_Scikit Learn_Pca_One Hot Encoding

Scikit learn 为PCA缩放一个热编码变量

scikit-learn

Scikit learn 为PCA缩放一个热编码变量,scikit-learn,pca,one-hot-encoding,Scikit Learn,Pca,One Hot Encoding,我有连续变量和分类变量混合的数据。我计划对分类变量进行一次热编码，缩放数据集（平均值=0，标准值=1），然后执行PCA以减少维数。我需要知道，在进行PCA之前，我是否应该同样缩放一个热编码变量？为此，我将使用python scikit学习包。我想。此外，还对StackExchange进行了一般性讨论：。但是，它只在R中引入了一个包在python中，我能找到的唯一一个包是这个包：。请注意，它是一个私有包，所以不应该期望在维护人员空闲时间之外得到广泛的支持。在这个包中是相关的工具，它目前正在构建/

我有连续变量和分类变量混合的数据。我计划对分类变量进行一次热编码，缩放数据集（平均值=0，标准值=1），然后执行PCA以减少维数。我需要知道，在进行PCA之前，我是否应该同样缩放一个热编码变量？为此，我将使用python scikit学习包。

我想。此外，还对StackExchange进行了一般性讨论：。但是，它只在R中引入了一个包

在python中，我能找到的唯一一个包是这个包：。请注意，它是一个私有包，所以不应该期望在维护人员空闲时间之外得到广泛的支持。在这个包中是相关的工具，它目前正在构建/调试中。

当你说缩放数据集时，你是指完整的数据集，还是仅指不是一个热编码的列？这实际上是一个问题：我应该只缩放连续变量还是整个数据集（包括一个热编码变量）？为什么要在主成分分析之前缩放特征？主成分分析在输入特征的比例差异中是否有意义？我想你会在主成分分析之后进行缩放，以使依赖于距离测量的ML模型能够消化输入。这可能会有帮助：谢谢@VivekKumar。对于额外的混淆，抱歉