Machine learning 低维和高维数据

Machine learning 低维和高维数据,machine-learning,artificial-intelligence,svm,dimensions,Machine Learning,Artificial Intelligence,Svm,Dimensions,我是机器学习新手,当我学习SVM时,我发现了一个术语:“低维和高维数据”,那么有人能给我解释一下它们是什么以及它们之间的区别吗?它通常指的是你试图分类的问题中每个样本的特征数量。例如,著名的鸢尾花数据集仅包括4个特征(萼片长度、萼片宽度、花瓣宽度、花瓣长度),并且将被视为低维数据集 处理更复杂数据的其他数据集可能包括每个样本的数百或数千个特征。这些被认为是高维数据集 如(第18章,第649页-或第二版pdf第668页链接此处)所定义,高维问题是 特征p的数量远远大于 观察结果N,常写p>>N 因

我是机器学习新手,当我学习SVM时,我发现了一个术语:“低维和高维数据”,那么有人能给我解释一下它们是什么以及它们之间的区别吗?

它通常指的是你试图分类的问题中每个样本的特征数量。例如,著名的鸢尾花数据集仅包括4个特征(萼片长度、萼片宽度、花瓣宽度、花瓣长度),并且将被视为低维数据集

处理更复杂数据的其他数据集可能包括每个样本的数百或数千个特征。这些被认为是高维数据集

如(第18章,第649页-或第二版pdf第668页链接此处)所定义,高维问题是

特征p的数量远远大于 观察结果N,常写p>>N

因此,高维数据实际上并不涉及大量特征(正如公认的答案所示),它是由特征/样本比率定义的。请注意,此定义适用于机器学习社区,但可能与其他领域的相同想法无关


这表明,在生成确定性答案时,使用高维数据开发模型通常与引入强假设同义。

高/低维与数据集中的观测值和特征之间的比率相关。在这种情况下,观测值的数量明显低于被视为高维数据集的特征数量

谢谢,终于收到了!用简单的术语解释。