Machine learning 在偏差-方差困境中,假设和不一致意味着什么?

Machine learning 在偏差-方差困境中,假设和不一致意味着什么?,machine-learning,statistics,training-data,variance,Machine Learning,Statistics,Training Data,Variance,我正在阅读有关机器学习的书籍,试图理解偏差和方差的含义。我已经阅读了这些文章(,),但仍有一些问题: 偏差: 该模型存在偏差,因为它假设数据将以一种特定的方式运行 某种形式(线性、二次等),即使该假设 可能不是真的 “假设”是什么意思?我们选择要使用的模型。如果我们选择一个线性模型,那么它将尝试拟合它所能做的最佳直线 差异: 方差衡量的是一个人的预测有多不一致 在不同的训练集上进行另一次训练 如果我们使用不同的训练集,为什么它应该是一致的?如果我们使用猫的数据,它将给出一个预测。如果我们使用狗的

我正在阅读有关机器学习的书籍,试图理解偏差和方差的含义。我已经阅读了这些文章(,),但仍有一些问题:

  • 偏差:

    该模型存在偏差,因为它假设数据将以一种特定的方式运行 某种形式(线性、二次等),即使该假设 可能不是真的

    “假设”是什么意思?我们选择要使用的模型。如果我们选择一个线性模型,那么它将尝试拟合它所能做的最佳直线

  • 差异:

    方差衡量的是一个人的预测有多不一致 在不同的训练集上进行另一次训练

    如果我们使用不同的训练集,为什么它应该是一致的?如果我们使用猫的数据,它将给出一个预测。如果我们使用狗的数据,它会给我们不同的预测。或者,他们是否意味着,当我们向训练集添加更多的观测值时,预测应该会得到改进,而不是模型现在给我们的预测与以前不同


  • 1-假设只是他们解释模型中函数近似的方式。例如,假设数据集的实际底层函数是
    y=2x+10
    ,当我们为此任务选择线性模型时,我们的模型近似于
    y=3x+9
    。另一个线性模型将近似于
    y=2.5x+10
    。假设是一个隐喻,他们用来表示线性模型所做的函数近似-而不是我们为这项任务选择线性模型所做的假设。2-我不清楚:
    方差衡量不同训练集上彼此预测的不一致程度。以下是我对差异的看法:当您试图将模型过度拟合到训练集时,就会出现差异。假设我们有一个来自底层分布的非线性2D数据集
    y=x^3
    ,在
    (0,50)
    周围有一些异常值,而在
    (0,0)
    周围没有其他异常值。我们训练我们的模型,直到我们的模型逼近一个与训练集精确匹配的函数(一条穿过所有点的曲线)。但是我们不知道我们数据的基本函数只是一个
    y=x^3
    函数现在,当我们通过呈现一些属于
    y=x^3
    分布的测试数据来评估模型时,模型将预测
    x
    值在0左右的50左右;因为当
    x
    约为0时,模型无法通过认为上述异常点代表基础数据的实际行为来进行概括。当这种情况发生在多个地区时,该模型将预测(在tets数据上)与基础分布不相似的结果,同时在训练数据上实现几乎完美的性能。除此之外,我认为这个问题更适合交叉验证。@akilat90,但即使是维基百科也说,偏见是学习算法中错误假设造成的错误。
    。那么,这种情况下的假设是什么?