使用带有2个组件的Python可视化转换的数据
这是我试图通过首先运行PCA来分析的样本文件:使用带有2个组件的Python可视化转换的数据,python,matplotlib,scikit-learn,scatter-plot,pca,Python,Matplotlib,Scikit Learn,Scatter Plot,Pca,这是我试图通过首先运行PCA来分析的样本文件: A01_01 A01_02 A01_03 A01_04 A01_05 A01_06 A01_07 A01_08 A01_09 A01_10 A01_11 A01_12 A01_13 A01_14 A01_15 A01_16 A01_17 A01_18 A01_19 A01_20 A01_21 A01_22 A01_23 A01_24 A01_25 A01_26 A01_27 A01_28 A0
A01_01 A01_02 A01_03 A01_04 A01_05 A01_06 A01_07 A01_08 A01_09 A01_10 A01_11 A01_12 A01_13 A01_14 A01_15 A01_16 A01_17 A01_18 A01_19 A01_20 A01_21 A01_22 A01_23 A01_24 A01_25 A01_26 A01_27 A01_28 A01_29 A01_30 A01_31 A01_32 A01_33 A01_34 A01_35 A01_36 A01_37 A01_38 A01_39 A01_40 A01_41 A01_42 A01_43 A01_44 A01_45 A01_46 A01_47 A01_48 A01_49 A01_50 A01_51 A01_52 A01_53 A01_54 A01_55 A01_56 A01_57 A01_58 A01_59 A01_60 A01_61 A01_62 A01_63 A01_64 A01_65 A01_66 A01_67 A01_69 A01_70 A01_71
0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 1 1 0 1 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 0 1
0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 1 1 0 1 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 0 1
0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 1 1 0 1 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 0 1
0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 1 1 0 1 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 0 1
0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 1 1 0 1 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 0 1
0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 0 1 1 1 0 1 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 1 0 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 0 1
使用以下脚本:
#!/usr/bin/env python
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np
data = np.loadtxt('/Users/cmdb/Desktop/Lab6_GWAS/variants1.txt', skiprows=1)
pca = PCA(n_components=2)
fit = pca.fit_transform(data) #Fit is PCA(copy=True, n_components=2, whiten=False)
plt.figure()
plt.scatter(fit[:,0], fit[:,1])
plt.show()
请注意,我想绘制前两个组件,据我所知,我正在这样做
这是我得到的情节:
我想从中提取一些信息,并通过对前两个组件执行PCA来确保我做到了这一点
此外,当我将
pca=pca(n\u组件)
中的n\u组件
更改为2或5时,没有任何更改。知道我做错了什么吗 尝试打印结果的形状
print (fit.shape)
返回的元组的第二个元素应与n_组件相同。如中所述:n_组件代表 要保留的组件数
如果您想可视化具有2或3个以上维度的数据,可以尝试降低数据的维度,而不是PCA(如果您关心的是可视化)。使用
n_components=2
得到的两个组件应该与使用n_components=5
得到的前两个组件相同,所以如果你只画这些,就不会有什么不同了。不同之处在于,在第二种情况下,您将获得额外的组件。