Python 确定pca分析中n_分量变量的值

Python 确定pca分析中n_分量变量的值,python,pca,Python,Pca,祝你今天愉快。请帮帮我。我有一个标准化的文件。该文件由21个数字列组成 我将对该文件应用pca分析,如下所示: pca = decomposition.PCA(n_components=21) pca_output = pca.fit_transform(pca_matrix) pca_inverse = pca.inverse_transform(pca_output) 据我所知,分配给n_components变量的值等于列数。但我不明白的是如何确定n_分量变量 这是一个超参数,找到它的最佳

祝你今天愉快。请帮帮我。我有一个标准化的文件。该文件由21个数字列组成

我将对该文件应用pca分析,如下所示:

pca = decomposition.PCA(n_components=21)
pca_output = pca.fit_transform(pca_matrix)
pca_inverse = pca.inverse_transform(pca_output)

据我所知,分配给n_components变量的值等于列数。但我不明白的是如何确定n_分量变量

这是一个超参数,找到它的最佳值取决于您想对数据做什么。让我描述3种可能的用途:

可视化:2或3可能是最明智的选择: 压缩:这里的目标是在不丢失太多信息的情况下简单地减少特性的数量。您可以安装所有组件n_components=None。然后检查属性“解释的方差”和“比率”,并决定您愿意放弃多少。或者你可以把n_components='mle'放在上面,让数据为你决定。 预处理:这里降维是回归/分类之前某些管道的第一步。与压缩相反,您希望使用转换后的特征作为有监督学习算法的输入。我建议在PCA的n_分量和预测模型的超参数上通过GridSearchCV找到最佳n_分量。