使用带有2个组件的Python可视化转换的数据_Python_Matplotlib_Scikit Learn_Scatter Plot_Pca

使用带有2个组件的Python可视化转换的数据

python matplotlib scikit-learn

使用带有2个组件的Python可视化转换的数据,python,matplotlib,scikit-learn,scatter-plot,pca,Python,Matplotlib,Scikit Learn,Scatter Plot,Pca,这是我试图通过首先运行PCA来分析的样本文件： A01_01 A01_02 A01_03 A01_04 A01_05 A01_06 A01_07 A01_08 A01_09 A01_10 A01_11 A01_12 A01_13 A01_14 A01_15 A01_16 A01_17 A01_18 A01_19 A01_20 A01_21 A01_22 A01_23 A01_24 A01_25 A01_26 A01_27 A01_28 A0

这是我试图通过首先运行PCA来分析的样本文件：

A01_01  A01_02  A01_03  A01_04  A01_05  A01_06  A01_07  A01_08  A01_09  A01_10 A01_11   A01_12  A01_13  A01_14  A01_15  A01_16  A01_17  A01_18  A01_19  A01_20  A01_21  A01_22  A01_23  A01_24  A01_25  A01_26  A01_27  A01_28  A01_29  A01_30  A01_31  A01_32  A01_33  A01_34  A01_35  A01_36  A01_37  A01_38  A01_39  A01_40  A01_41  A01_42  A01_43  A01_44  A01_45  A01_46  A01_47  A01_48  A01_49  A01_50  A01_51  A01_52  A01_53  A01_54  A01_55  A01_56  A01_57  A01_58  A01_59  A01_60  A01_61  A01_62  A01_63  A01_64  A01_65  A01_66  A01_67  A01_69  A01_70  A01_71
0   1   0   0   1   1   1   1   1   0   0   0   0   0   0   0   1   1   0   1   1   1   0   1   0   1   0   0   1   0   1   0   0   0   0   0   0   1   1   1   0   1   0   0   0   0   1   0   1   1   0   1   1   0   0   1   1   1   1   1   1   1   1   0   0   1   0   0   0   1
0   1   0   0   1   1   1   1   1   0   0   0   0   0   0   0   1   1   0   1   1   1   0   1   0   1   0   0   1   0   1   0   0   0   0   0   0   1   1   1   0   1   0   0   0   0   1   0   1   1   0   1   1   0   0   1   1   1   1   1   1   1   1   0   0   1   0   0   0   1
0   1   0   0   1   1   1   1   1   0   0   0   0   0   0   0   1   1   0   1   1   1   0   1   0   1   0   0   1   0   1   0   0   0   0   0   0   1   1   1   0   1   0   0   0   0   1   0   1   1   0   1   1   0   0   1   1   1   1   1   1   1   1   0   0   1   0   0   0   1
0   1   0   0   1   1   1   1   1   0   0   0   0   0   0   0   1   1   0   1   1   1   0   1   0   1   0   0   1   0   1   0   0   0   0   0   0   1   1   1   0   1   0   0   0   0   1   0   1   1   0   1   1   0   0   1   1   1   1   1   1   1   1   0   0   1   0   0   0   1 
0   1   0   0   1   1   1   1   1   0   0   0   0   0   0   0   1   1   0   1   1   1   0   1   0   1   0   0   1   0   1   0   0   0   0   0   0   1   1   1   0   1   0   0   0   0   1   0   1   1   0   1   1   0   0   1   1   1   1   1   1   1   1   0   0   1   0   0   0   1
0   1   0   0   1   1   1   1   1   0   0   0   0   0   0   0   1   1   0   1   1   1   0   1   0   1   0   0   1   0   1   0   0   0   0   0   0   1   1   1   0   1   0   0   0   0   1   0   1   1   0   1   1   0   0   1   1   1   1   1   1   1   1   0   0   1   0   0   0   1

使用以下脚本：

#!/usr/bin/env python
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np    
data = np.loadtxt('/Users/cmdb/Desktop/Lab6_GWAS/variants1.txt', skiprows=1)
pca = PCA(n_components=2)
fit = pca.fit_transform(data) #Fit is PCA(copy=True, n_components=2, whiten=False)

plt.figure()
plt.scatter(fit[:,0], fit[:,1])
plt.show()

请注意，我想绘制前两个组件，据我所知，我正在这样做

这是我得到的情节：

我想从中提取一些信息，并通过对前两个组件执行PCA来确保我做到了这一点

此外，当我将

pca=pca（n\u组件）

中的

n\u组件

更改为2或5时，没有任何更改。知道我做错了什么吗

尝试打印结果的形状

print (fit.shape)

返回的元组的第二个元素应与n_组件相同。
如中所述：n_组件代表

要保留的组件数

如果您想可视化具有2或3个以上维度的数据，可以尝试降低数据的维度，而不是PCA（如果您关心的是可视化）。

使用

n_components=2

得到的两个组件应该与使用

n_components=5

得到的前两个组件相同，所以如果你只画这些，就不会有什么不同了。不同之处在于，在第二种情况下，您将获得额外的组件。