Matlab和Python为PCA生成不同的结果_Python_Matlab_Scikit Learn_Pca

Matlab和Python为PCA生成不同的结果

python matlab scikit-learn

Matlab和Python为PCA生成不同的结果,python,matlab,scikit-learn,pca,Python,Matlab,Scikit Learn,Pca,我正在使用PCA，我发现Python中sklearn中的PCA和Matlab中的PCA（）会产生不同的结果。这是我正在使用的测试矩阵 a = np.array([[-1,-1], [-2,-1], [-3, -2], [1,1], [2,1], [3,2]]) 为了学习，我得到了 p = PCA() print(p.fit_transform(a)) [[-1.38340578 0.2935787 ] [-2.22189802 -0.25133484] [-3.6053038 0.04

我正在使用PCA，我发现Python中sklearn中的PCA和Matlab中的PCA（）会产生不同的结果。这是我正在使用的测试矩阵

a = np.array([[-1,-1], [-2,-1], [-3, -2], [1,1], [2,1], [3,2]])

为了学习，我得到了

p = PCA()
print(p.fit_transform(a))

[[-1.38340578  0.2935787 ]
[-2.22189802 -0.25133484]
[-3.6053038   0.04224385]
[ 1.38340578 -0.2935787 ]
[ 2.22189802  0.25133484]
[ 3.6053038  -0.04224385]]

对于Matlab，我得到了

pca(a', 'Centered', false)

[0.2196    0.5340
0.3526   -0.4571
0.5722    0.0768
-0.2196   -0.5340
-0.3526    0.4571
-0.5722   -0.0768]

为什么观察到这种差异

谢谢丹的回答。结果现在看来相当合理。然而，如果我使用随机矩阵进行测试，看起来Matlab和Python产生的结果不是彼此的标量倍数。为什么会发生这种情况

test matrix a:

[[ 0.36671885  0.77268624  0.94687497]
[ 0.75741855  0.63457672  0.88671836]
[ 0.20818031  0.709373    0.45114135]
[ 0.24488718  0.87400025  0.89382836]
[ 0.16554686  0.74684393  0.08551401]
[ 0.07371664  0.1632872   0.84217978]]

Python结果：

p = PCA()
p.fit_transform(a))

[[ 0.25305509 -0.10189215 -0.11661895]
[ 0.36137036 -0.20480169  0.27455458]
[-0.25638649 -0.02923213 -0.01619661]
[ 0.14741593 -0.12777308 -0.2434731 ]
[-0.6122582  -0.08568121  0.06790961]
[ 0.10680331  0.54938026  0.03382447]]

Matlab结果：

pca(a', 'Centered', false)

0.504156973865138   -0.0808159771243340 -0.107296852182663
0.502756555190181   -0.174432053627297  0.818826939851221
0.329948209311847   0.315668718703861   -0.138813345638127
0.499181592718705   0.0755364557146097  -0.383301081533716
0.232039797509016   0.694464307249012   -0.0436361728092353
0.284905319274925   -0.612706345940607  -0.387190971583757

谢谢丹在整个过程中的帮助。事实上，我发现这是对Matlab函数的滥用。默认情况下，Matlab返回主成分系数。使用[~，score]=pca（a，'Centered'，true）将获得与Python相同的结果。

pca使用特征向量。只要向量是平行的，大小是无关的（只是不同的规格化）

在您的例子中，两者是彼此的标量倍数。Try（在MATLAB中）

现在请注意，

B（：，1）*-6.2997

基本上等于

A（：，1）

。或者换一种说法

A(:,n)./B(:,n)

为每行提供（大致）相同的数字。这意味着两个向量有相同的方向（即它们只是彼此的标量倍数），因此得到的主分量相同

另一个例子请参见此处：

非常感谢您的快速回复。这次我得到了同样的结果。然而，如果我使用随机矩阵，结果似乎不是彼此的标量倍数。我已将新的测试矩阵和结果放在原始问题中。你介意看一下吗？非常感谢。目前不在MATLAB附近，但它们的顺序也可能不同。。。因此，如果你重新排列其中一个矩阵的列，你应该能够得到它们是标量的倍数。我的猜测是将列排序为特征值的大小，应该可以解决这个问题。非常感谢您的帮助。我终于解决了这个问题。@user3451228请添加您所解决的问题，以便本问题的未来读者能够找到完整的答案。谢谢您的建议。这实际上是对Matlab函数的误用（对此表示抱歉）。我已经更新了这个，以防任何人需要类似的信息。

A(:,n)./B(:,n)