Apache spark 如何解释Spark PCA输出?

Apache spark 如何解释Spark PCA输出?,apache-spark,pca,Apache Spark,Pca,我用三个变量运行Spark(2.2)PCA:x、y和z。 我得到: 这些是特征向量。它们是否按顺序对应于x、y和z?如果PCA是关于特征缩减的,那么我可以说x解释了大部分数据,所以只使用x吗?因为我有一个值向量,所以我可以用数学的百分比来表示吗?PCA用于减少维数。如果输入维度是3(x,y,z),输出维度也是3,那么就没有真正的维度缩减,PCA也没有任何意义 输出特征与x、y和z不对应。这只是一个新的 一组功能。不,你不能说第一个功能解释了大部分数据。谢谢!因此,这无助于确定哪些功能值得保留?有

我用三个变量运行Spark(2.2)PCA:x、y和z。 我得到:


这些是特征向量。它们是否按顺序对应于x、y和z?如果PCA是关于特征缩减的,那么我可以说x解释了大部分数据,所以只使用x吗?因为我有一个值向量,所以我可以用数学的百分比来表示吗?

PCA用于减少维数。如果输入维度是3(x,y,z),输出维度也是3,那么就没有真正的维度缩减,PCA也没有任何意义

输出特征与x、y和z不对应。这只是一个新的
一组功能。不,你不能说第一个功能解释了大部分数据。

谢谢!因此,这无助于确定哪些功能值得保留?有什么有用的吗?我以前使用过卡方选择器,但那是用于分类数据的。@schoon PCA通过将现有特征映射到新特征来减少特征数量,而不是选择相关特征的子集。如果要选择子集,应尝试使用特征选择算法)
+-----------------------------------------------------------+
|pcaFeatures                                                |
+-----------------------------------------------------------+
|[4192.998527751072,7.815744760976605,2.064076348440629]    |
|[934.9987857492071,6.178849121007534,2.0229856767680876]   |
|[81.99880210954893,6.012098465539804,2.0127405793319535] ...