Scikit learn 为PCA缩放一个热编码变量

Scikit learn 为PCA缩放一个热编码变量,scikit-learn,pca,one-hot-encoding,Scikit Learn,Pca,One Hot Encoding,我有连续变量和分类变量混合的数据。我计划对分类变量进行一次热编码,缩放数据集(平均值=0,标准值=1),然后执行PCA以减少维数。我需要知道,在进行PCA之前,我是否应该同样缩放一个热编码变量?为此,我将使用python scikit学习包。我想。此外,还对StackExchange进行了一般性讨论:。但是,它只在R中引入了一个包 在python中,我能找到的唯一一个包是这个包:。请注意,它是一个私有包,所以不应该期望在维护人员空闲时间之外得到广泛的支持。在这个包中是相关的工具,它目前正在构建/

我有连续变量和分类变量混合的数据。我计划对分类变量进行一次热编码,缩放数据集(平均值=0,标准值=1),然后执行PCA以减少维数。我需要知道,在进行PCA之前,我是否应该同样缩放一个热编码变量?为此,我将使用python scikit学习包。

我想。此外,还对StackExchange进行了一般性讨论:。但是,它只在R中引入了一个包


在python中,我能找到的唯一一个包是这个包:。请注意,它是一个私有包,所以不应该期望在维护人员空闲时间之外得到广泛的支持。在这个包中是相关的工具,它目前正在构建/调试中。

当你说缩放数据集时,你是指完整的数据集,还是仅指不是一个热编码的列?这实际上是一个问题:我应该只缩放连续变量还是整个数据集(包括一个热编码变量)?为什么要在主成分分析之前缩放特征?主成分分析在输入特征的比例差异中是否有意义?我想你会在主成分分析之后进行缩放,以使依赖于距离测量的ML模型能够消化输入。这可能会有帮助:谢谢@VivekKumar。对于额外的混淆,抱歉