Algorithm 在异常值检测中,将高维数据随机投影到低维数据有意义吗?

Algorithm 在异常值检测中,将高维数据随机投影到低维数据有意义吗?,algorithm,machine-learning,outliers,unsupervised-learning,Algorithm,Machine Learning,Outliers,Unsupervised Learning,我有一些高维数据,我想从中检测异常值。我知道,如果我在处理低维数据,我可以对数据点进行聚类,然后检查数据点是否属于某个聚类,或者计算从该数据点到其k个最近邻的平均距离,等等。但我无法对高维数据执行这些操作,因为维的诅咒 所以我想也许我可以随机地将高维数据投影到低维数据,并检查数据点的投影是否是大多数转换数据集中的异常值。我的假设是,高维中的离群值在大多数低维预测中也应该是离群值 例如,随机生成一些从(假设我们有维度诅咒)到(我们可以用传统方法进行聚类)的投影,表示为(所有这些投影都是带有随机元素

我有一些高维数据,我想从中检测异常值。我知道,如果我在处理低维数据,我可以对数据点进行聚类,然后检查数据点是否属于某个聚类,或者计算从该数据点到其k个最近邻的平均距离,等等。但我无法对高维数据执行这些操作,因为维的诅咒

所以我想也许我可以随机地将高维数据投影到低维数据,并检查数据点的投影是否是大多数转换数据集中的异常值。我的假设是,高维中的离群值在大多数低维预测中也应该是离群值

例如,随机生成一些从(假设我们有维度诅咒)到(我们可以用传统方法进行聚类)的投影,表示为(所有这些投影都是带有随机元素的矩阵)。假设我们想要检测数据中的异常值。如果对许多人来说,是一个异常值,那么是一个异常值


这有意义吗?

执行异常检测的典型方法是使用。这个想法与您描述的类似,但它使用线性代数来明智地选择执行投影的确切方式。这样做可以保证投影时丢失的信息量最小。

您知道称为降维的一套技术吗?@delnan谢谢。我现在正在读有关它的书。