Machine learning 在偏差-方差困境中，假设和不一致意味着什么？_Machine Learning_Statistics_Training Data_Variance

Machine learning 在偏差-方差困境中，假设和不一致意味着什么？

machine-learning statistics

Machine learning 在偏差-方差困境中，假设和不一致意味着什么？,machine-learning,statistics,training-data,variance,Machine Learning,Statistics,Training Data,Variance,我正在阅读有关机器学习的书籍，试图理解偏差和方差的含义。我已经阅读了这些文章（，），但仍有一些问题：偏差：该模型存在偏差，因为它假设数据将以一种特定的方式运行某种形式（线性、二次等），即使该假设可能不是真的 “假设”是什么意思？我们选择要使用的模型。如果我们选择一个线性模型，那么它将尝试拟合它所能做的最佳直线差异：方差衡量的是一个人的预测有多不一致在不同的训练集上进行另一次训练如果我们使用不同的训练集，为什么它应该是一致的？如果我们使用猫的数据，它将给出一个预测。如果我们使用狗的

我正在阅读有关机器学习的书籍，试图理解偏差和方差的含义。我已经阅读了这些文章（，），但仍有一些问题：

偏差：

该模型存在偏差，因为它假设数据将以一种特定的方式运行某种形式（线性、二次等），即使该假设可能不是真的

“假设”是什么意思？我们选择要使用的模型。如果我们选择一个线性模型，那么它将尝试拟合它所能做的最佳直线

差异：

方差衡量的是一个人的预测有多不一致在不同的训练集上进行另一次训练

如果我们使用不同的训练集，为什么它应该是一致的？如果我们使用猫的数据，它将给出一个预测。如果我们使用狗的数据，它会给我们不同的预测。或者，他们是否意味着，当我们向训练集添加更多的观测值时，预测应该会得到改进，而不是模型现在给我们的预测与以前不同

1-假设只是他们解释模型中函数近似的方式。例如，假设数据集的实际底层函数是

y=2x+10

，当我们为此任务选择线性模型时，我们的模型近似于

y=3x+9

。另一个线性模型将近似于

y=2.5x+10

。假设是一个隐喻，他们用来表示线性模型所做的函数近似-而不是我们为这项任务选择线性模型所做的假设。2-我不清楚：

方差衡量不同训练集上彼此预测的不一致程度。以下是我对差异的看法：当您试图将模型过度拟合到训练集时，就会出现差异。假设我们有一个来自底层分布的非线性2D数据集y=x^3
，在（0,50）
周围有一些异常值，而在（0,0）
周围没有其他异常值。我们训练我们的模型，直到我们的模型逼近一个与训练集精确匹配的函数（一条穿过所有点的曲线）。但是我们不知道我们数据的基本函数只是一个y=x^3
函数现在，当我们通过呈现一些属于y=x^3
分布的测试数据来评估模型时，模型将预测x
值在0左右的50左右；因为当x
约为0时，模型无法通过认为上述异常点代表基础数据的实际行为来进行概括。当这种情况发生在多个地区时，该模型将预测（在tets数据上）与基础分布不相似的结果，同时在训练数据上实现几乎完美的性能。除此之外，我认为这个问题更适合交叉验证。@akilat90，但即使是维基百科也说，偏见是学习算法中错误假设造成的错误。

。那么，这种情况下的假设是什么？