Apache spark 如何解释Spark PCA输出？_Apache Spark_Pca

Apache spark 如何解释Spark PCA输出？

apache-spark

Apache spark 如何解释Spark PCA输出？,apache-spark,pca,Apache Spark,Pca,我用三个变量运行Spark（2.2）PCA：x、y和z。我得到：这些是特征向量。它们是否按顺序对应于x、y和z？如果PCA是关于特征缩减的，那么我可以说x解释了大部分数据，所以只使用x吗？因为我有一个值向量，所以我可以用数学的百分比来表示吗？PCA用于减少维数。如果输入维度是3（x，y，z），输出维度也是3，那么就没有真正的维度缩减，PCA也没有任何意义输出特征与x、y和z不对应。这只是一个新的一组功能。不，你不能说第一个功能解释了大部分数据。谢谢！因此，这无助于确定哪些功能值得保留？有

我用三个变量运行Spark（2.2）PCA：x、y和z。我得到：

这些是特征向量。它们是否按顺序对应于x、y和z？如果PCA是关于特征缩减的，那么我可以说x解释了大部分数据，所以只使用x吗？因为我有一个值向量，所以我可以用数学的百分比来表示吗？

PCA用于减少维数。如果输入维度是3（x，y，z），输出维度也是3，那么就没有真正的维度缩减，PCA也没有任何意义

输出特征与x、y和z不对应。这只是一个新的

一组功能。不，你不能说第一个功能解释了大部分数据。

谢谢！因此，这无助于确定哪些功能值得保留？有什么有用的吗？我以前使用过卡方选择器，但那是用于分类数据的。@schoon PCA通过将现有特征映射到新特征来减少特征数量，而不是选择相关特征的子集。如果要选择子集，应尝试使用特征选择算法）

+-----------------------------------------------------------+
|pcaFeatures                                                |
+-----------------------------------------------------------+
|[4192.998527751072,7.815744760976605,2.064076348440629]    |
|[934.9987857492071,6.178849121007534,2.0229856767680876]   |
|[81.99880210954893,6.012098465539804,2.0127405793319535] ...