Machine learning 维度诅咒和模型过拟合/欠拟合,哪一个合适?

Machine learning 维度诅咒和模型过拟合/欠拟合,哪一个合适?,machine-learning,Machine Learning,在一家高科技公司的技术面试中,他们问了我以下问题: 使用大量特征和相对较少样本(即矩形数据集)进行训练是否会导致过拟合或欠拟合 旁注:我重新措辞了这个问题,因为这是一个基于情景的问题。然而,我100%确信我理解了他们的意思 就我目前所知,这是一个典型的过度适合的情况。关于这一点,我的主要参考是Andrew NJ教授的机器学习课程(特别是第6周)以及一些类似以下的教程: 这种选择的一个违反直觉的原因,特别是对于初学者,可能是以下原因: 随着属性数或维度数的增加,泛化模型所需的训练样本数也显著增加

在一家高科技公司的技术面试中,他们问了我以下问题:

使用大量特征和相对较少样本(即矩形数据集)进行训练是否会导致过拟合或欠拟合

旁注:我重新措辞了这个问题,因为这是一个基于情景的问题。然而,我100%确信我理解了他们的意思

就我目前所知,这是一个典型的过度适合的情况。关于这一点,我的主要参考是Andrew NJ教授的机器学习课程(特别是第6周)以及一些类似以下的教程:

这种选择的一个违反直觉的原因,特别是对于初学者,可能是以下原因:

随着属性数或维度数的增加,泛化模型所需的训练样本数也显著增加。因此,如果我们有太多的维度,那么我们会使模型过度拟合现有样本

然而,当我试图这样解释情况时,我感到他们不赞成。所以,我假装我犯了一个错误,告诉他们这是一个不合适的情况。此外,当我试图用以下方式直观地解释它时,这对他们来说是有意义的:

“模型将看到大量使投入产出关系复杂化的特性,因此会使模型低估这种关系。”

我不相信后一种推理,但当我开始学习ML时,它对我来说是很有说服力的。面试官在其他学科中技术性很强,但是他们最近才开始学习ML,就像许多其他人一样。因此,在思考这个问题时,我没有消除我的错误答案

我的问题是:

1-你认为我上面的哪一个解释更合适?你还有其他的参考资料吗


2-你认为我能应付这种面试情况吗?我不应该坚持正确的答案吗?

这不适合这里,最好在交叉验证中询问。请参阅机器学习中的介绍和注释。