Machine learning 使用在大数据集上训练的PCA处理较小的数据集

Machine learning 使用在大数据集上训练的PCA处理较小的数据集,machine-learning,pca,Machine Learning,Pca,我可以使用一个pca子空间来评估一个单一的读数吗,比如说,八个特征和一千个时间点?也就是说,如果我保留(比如)前六个分量,我的变换矩阵将是8x6,使用它变换与训练数据大小相同的测试数据将得到6x1000个向量 但是,如果我想独立地在每个时间点寻找异常呢?也就是说,我可以在8x1维测试向量上使用1000个单独的变换,而不是使用8x1000测试集,并获得相同的结果吗?该向量将被转换为完全相同的点,就像它是更大数据矩阵中的第一行一样,但该向量与主轴的距离似乎没有意义。当我对截断的参考数据执行相同的过程

我可以使用一个pca子空间来评估一个单一的读数吗,比如说,八个特征和一千个时间点?也就是说,如果我保留(比如)前六个分量,我的变换矩阵将是8x6,使用它变换与训练数据大小相同的测试数据将得到6x1000个向量

但是,如果我想独立地在每个时间点寻找异常呢?也就是说,我可以在8x1维测试向量上使用1000个单独的变换,而不是使用8x1000测试集,并获得相同的结果吗?该向量将被转换为完全相同的点,就像它是更大数据矩阵中的第一行一样,但该向量与主轴的距离似乎没有意义。当我对截断的参考数据执行相同的过程时,这个距离也不是零,只有整个参考数据集上所有距离的总和是零。所以,如果我不能证明参考数据不是“异常的”,我怎么能在测试数据上使用它呢

在这种情况下,用于训练主成分分析的数据“对象”的大小是可以用它评估的对象的大小吗


谢谢你能给我的帮助

我不知道如何在单个样本中寻找异常,异常是一种行为,你可以将其与一些非异常行为进行比较,但如果你只有一个样本,你就没有任何可以比较的。此外,对单个样本进行PCA是毫无意义的。您将获得单个PCA方向(样本方向)和单个非零特征值。所以你没有学到任何新的东西-子空间将只是样本本身。是的,“单样本”问题是为了衡量非常小的样本大小的限制,但一般来说,是不是在这样的情况下,对X样本数据进行训练的PC只能用于对X样本数据进行评估?在所有情况下,我们讨论的是相同大小的协方差矩阵,这只是使用多少数据来计算协方差的问题。原则上,对于完全周期性的数据,一次周期应足以准确表示任何长度的样本,对吗?对于给定训练数据大小的测试数据,您可以评估多少样本,是否有一个通用规则?这取决于您所说的“评估”是什么意思。您始终可以在N个样本上学习(即,计算协方差矩阵),然后应用(即,沿PCs投影)单个样本。但我不认为你是这个意思。另外,如果你假设数据的统计数据,例如,它来自一个小维度的线性子空间加上一些噪声,那么有很多关于从有限样本计算协方差矩阵的误差的理论结果。