Machine learning 在偏差-方差困境中,假设和不一致意味着什么?
我正在阅读有关机器学习的书籍,试图理解偏差和方差的含义。我已经阅读了这些文章(,),但仍有一些问题:Machine learning 在偏差-方差困境中,假设和不一致意味着什么?,machine-learning,statistics,training-data,variance,Machine Learning,Statistics,Training Data,Variance,我正在阅读有关机器学习的书籍,试图理解偏差和方差的含义。我已经阅读了这些文章(,),但仍有一些问题: 偏差: 该模型存在偏差,因为它假设数据将以一种特定的方式运行 某种形式(线性、二次等),即使该假设 可能不是真的 “假设”是什么意思?我们选择要使用的模型。如果我们选择一个线性模型,那么它将尝试拟合它所能做的最佳直线 差异: 方差衡量的是一个人的预测有多不一致 在不同的训练集上进行另一次训练 如果我们使用不同的训练集,为什么它应该是一致的?如果我们使用猫的数据,它将给出一个预测。如果我们使用狗的
1-假设只是他们解释模型中函数近似的方式。例如,假设数据集的实际底层函数是
y=2x+10
,当我们为此任务选择线性模型时,我们的模型近似于y=3x+9
。另一个线性模型将近似于y=2.5x+10
。假设是一个隐喻,他们用来表示线性模型所做的函数近似-而不是我们为这项任务选择线性模型所做的假设。2-我不清楚:方差衡量不同训练集上彼此预测的不一致程度。以下是我对差异的看法:当您试图将模型过度拟合到训练集时,就会出现差异。假设我们有一个来自底层分布的非线性2D数据集y=x^3
,在(0,50)
周围有一些异常值,而在(0,0)
周围没有其他异常值。我们训练我们的模型,直到我们的模型逼近一个与训练集精确匹配的函数(一条穿过所有点的曲线)。但是我们不知道我们数据的基本函数只是一个y=x^3
函数现在,当我们通过呈现一些属于y=x^3
分布的测试数据来评估模型时,模型将预测x
值在0左右的50左右;因为当x
约为0时,模型无法通过认为上述异常点代表基础数据的实际行为来进行概括。当这种情况发生在多个地区时,该模型将预测(在tets数据上)与基础分布不相似的结果,同时在训练数据上实现几乎完美的性能。除此之外,我认为这个问题更适合交叉验证。@akilat90,但即使是维基百科也说,偏见是学习算法中错误假设造成的错误。
。那么,这种情况下的假设是什么?