Machine learning 使用在大数据集上训练的PCA处理较小的数据集_Machine Learning_Pca

Machine learning 使用在大数据集上训练的PCA处理较小的数据集

machine-learning

Machine learning 使用在大数据集上训练的PCA处理较小的数据集,machine-learning,pca,Machine Learning,Pca,我可以使用一个pca子空间来评估一个单一的读数吗，比如说，八个特征和一千个时间点？也就是说，如果我保留（比如）前六个分量，我的变换矩阵将是8x6，使用它变换与训练数据大小相同的测试数据将得到6x1000个向量但是，如果我想独立地在每个时间点寻找异常呢？也就是说，我可以在8x1维测试向量上使用1000个单独的变换，而不是使用8x1000测试集，并获得相同的结果吗？该向量将被转换为完全相同的点，就像它是更大数据矩阵中的第一行一样，但该向量与主轴的距离似乎没有意义。当我对截断的参考数据执行相同的过程

我可以使用一个pca子空间来评估一个单一的读数吗，比如说，八个特征和一千个时间点？也就是说，如果我保留（比如）前六个分量，我的变换矩阵将是8x6，使用它变换与训练数据大小相同的测试数据将得到6x1000个向量

但是，如果我想独立地在每个时间点寻找异常呢？也就是说，我可以在8x1维测试向量上使用1000个单独的变换，而不是使用8x1000测试集，并获得相同的结果吗？该向量将被转换为完全相同的点，就像它是更大数据矩阵中的第一行一样，但该向量与主轴的距离似乎没有意义。当我对截断的参考数据执行相同的过程时，这个距离也不是零，只有整个参考数据集上所有距离的总和是零。所以，如果我不能证明参考数据不是“异常的”，我怎么能在测试数据上使用它呢

在这种情况下，用于训练主成分分析的数据“对象”的大小是可以用它评估的对象的大小吗

谢谢你能给我的帮助

我不知道如何在单个样本中寻找异常，异常是一种行为，你可以将其与一些非异常行为进行比较，但如果你只有一个样本，你就没有任何可以比较的。此外，对单个样本进行PCA是毫无意义的。您将获得单个PCA方向（样本方向）和单个非零特征值。所以你没有学到任何新的东西-子空间将只是样本本身。是的，“单样本”问题是为了衡量非常小的样本大小的限制，但一般来说，是不是在这样的情况下，对X样本数据进行训练的PC只能用于对X样本数据进行评估？在所有情况下，我们讨论的是相同大小的协方差矩阵，这只是使用多少数据来计算协方差的问题。原则上，对于完全周期性的数据，一次周期应足以准确表示任何长度的样本，对吗？对于给定训练数据大小的测试数据，您可以评估多少样本，是否有一个通用规则？这取决于您所说的“评估”是什么意思。您始终可以在N个样本上学习（即，计算协方差矩阵），然后应用（即，沿PCs投影）单个样本。但我不认为你是这个意思。另外，如果你假设数据的统计数据，例如，它来自一个小维度的线性子空间加上一些噪声，那么有很多关于从有限样本计算协方差矩阵的误差的理论结果。