Machine learning 重量衰减或参数收缩_Machine Learning

Machine learning 重量衰减或参数收缩

machine-learning

Machine learning 重量衰减或参数收缩,machine-learning,Machine Learning,参数收缩就像L2一样，被称为权重衰减。在顺序学习算法中，它鼓励权重值向零衰减，除非数据支持。为什么我们要使权重值接近零？或者给我举个例子，谢谢假设您有一个包含1000个变量的房价数据集，这些变量的值要么是-1要么是+1。因此，一个例子可能类似于（有两间卧室=+1，离高速公路很近=+1，有金色厕所=-1，有树木房子=-1，…）。现在，您需要对房子的售价是超过一百万（y=1）还是低于一百万（y=0）进行分类。你可以使用逻辑回归，然后为每个变量设置一个权重。因此，您必须做出判断，例如，has_gol

参数收缩就像L2一样，被称为权重衰减。在顺序学习算法中，它鼓励权重值向零衰减，除非数据支持。为什么我们要使权重值接近零？或者给我举个例子，谢谢

假设您有一个包含1000个变量的房价数据集，这些变量的值要么是

-1

要么是

+1

。因此，一个例子可能类似于

（有两间卧室=+1，离高速公路很近=+1，有金色厕所=-1，有树木房子=-1，…）

。现在，您需要对房子的售价是超过一百万（

y=1

）还是低于一百万（

y=0

）进行分类。你可以使用逻辑回归，然后为每个变量设置一个权重。因此，您必须做出判断，例如，

has_golden_厕所=+1

是高价值（高重量）房屋销售的强指标还是弱指标（低重量）

现在假设你只得到了三个例子，它们都有

has_tree\u house=+1

，并且所有三个房子的售价都超过了一百万（

y=1

）。您能将该变量的权重设置为一个非常高的值吗？可能不会。你更可能会说“这表明

有+1的树”

是一个很好的指标，但我们还不能确定。所以让我们将权重设置为一个中间值。”L2回归就是这样做的，因为它在数学上相当于对每个权重使用一个先验值，它是正态分布在0附近。所以你对每种体重的期望值是“可能是0，有时是0.25，很少超过这个”。如果你没有太多的数据，那么先验知识将在你对体重的判断中发挥重要作用。在树屋示例中，它将惩罚高值，因为没有足够的数据支持如此高的值。这样可以防止过度拟合数据中的噪波

你也可以从一个稍微不同的角度来看待它：如果你把你的权重推向0，那么任何分类都会在相当相等的变量中占多数。这减少了一个过度拟合的参数可能造成的损害，因为它对总体结果的影响很小