Machine learning 重量衰减或参数收缩

Machine learning 重量衰减或参数收缩,machine-learning,Machine Learning,参数收缩就像L2一样,被称为权重衰减。在顺序学习算法中,它鼓励权重值向零衰减,除非数据支持。为什么我们要使权重值接近零?或者给我举个例子,谢谢 假设您有一个包含1000个变量的房价数据集,这些变量的值要么是-1要么是+1。因此,一个例子可能类似于(有两间卧室=+1,离高速公路很近=+1,有金色厕所=-1,有树木房子=-1,…)。现在,您需要对房子的售价是超过一百万(y=1)还是低于一百万(y=0)进行分类。你可以使用逻辑回归,然后为每个变量设置一个权重。因此,您必须做出判断,例如,has_gol

参数收缩就像L2一样,被称为权重衰减。在顺序学习算法中,它鼓励权重值向零衰减,除非数据支持。为什么我们要使权重值接近零?或者给我举个例子,谢谢

假设您有一个包含1000个变量的房价数据集,这些变量的值要么是
-1
要么是
+1
。因此,一个例子可能类似于
(有两间卧室=+1,离高速公路很近=+1,有金色厕所=-1,有树木房子=-1,…)
。现在,您需要对房子的售价是超过一百万(
y=1
)还是低于一百万(
y=0
)进行分类。你可以使用逻辑回归,然后为每个变量设置一个权重。因此,您必须做出判断,例如,
has_golden_厕所=+1
是高价值(高重量)房屋销售的强指标还是弱指标(低重量)

现在假设你只得到了三个例子,它们都有
has_tree\u house=+1
,并且所有三个房子的售价都超过了一百万(
y=1
)。您能将该变量的权重设置为一个非常高的值吗?可能不会。你更可能会说“这表明
有+1的树”
是一个很好的指标,但我们还不能确定。所以让我们将权重设置为一个中间值。”L2回归就是这样做的,因为它在数学上相当于对每个权重使用一个先验值,它是正态分布在0附近。所以你对每种体重的期望值是“可能是0,有时是0.25,很少超过这个”。如果你没有太多的数据,那么先验知识将在你对体重的判断中发挥重要作用。在树屋示例中,它将惩罚高值,因为没有足够的数据支持如此高的值。这样可以防止过度拟合数据中的噪波

你也可以从一个稍微不同的角度来看待它:如果你把你的权重推向0,那么任何分类都会在相当相等的变量中占多数。这减少了一个过度拟合的参数可能造成的损害,因为它对总体结果的影响很小