Python 确定pca分析中n_分量变量的值_Python_Pca

Python 确定pca分析中n_分量变量的值

python

Python 确定pca分析中n_分量变量的值,python,pca,Python,Pca,祝你今天愉快。请帮帮我。我有一个标准化的文件。该文件由21个数字列组成我将对该文件应用pca分析，如下所示： pca = decomposition.PCA(n_components=21) pca_output = pca.fit_transform(pca_matrix) pca_inverse = pca.inverse_transform(pca_output) 据我所知，分配给n_components变量的值等于列数。但我不明白的是如何确定n_分量变量这是一个超参数，找到它的最佳

祝你今天愉快。请帮帮我。我有一个标准化的文件。该文件由21个数字列组成

我将对该文件应用pca分析，如下所示：

pca = decomposition.PCA(n_components=21)
pca_output = pca.fit_transform(pca_matrix)
pca_inverse = pca.inverse_transform(pca_output)

据我所知，分配给n_components变量的值等于列数。但我不明白的是如何确定n_分量变量

这是一个超参数，找到它的最佳值取决于您想对数据做什么。让我描述3种可能的用途：

可视化：2或3可能是最明智的选择：压缩：这里的目标是在不丢失太多信息的情况下简单地减少特性的数量。您可以安装所有组件n_components=None。然后检查属性“解释的方差”和“比率”，并决定您愿意放弃多少。或者你可以把n_components='mle'放在上面，让数据为你决定。预处理：这里降维是回归/分类之前某些管道的第一步。与压缩相反，您希望使用转换后的特征作为有监督学习算法的输入。我建议在PCA的n_分量和预测模型的超参数上通过GridSearchCV找到最佳n_分量。