Boost 基于分布的弱学习者:决策树桩

Boost 基于分布的弱学习者:决策树桩,boost,machine-learning,classification,weak,Boost,Machine Learning,Classification,Weak,我需要增强决策树桩弱分类器。因此,对于每次迭代,我都必须基于特定的权重训练弱分类器。然后,我将在每次迭代后更新权重。到目前为止我已经明白了。但我不清楚的部分是训练基于权重的决策树桩弱分类器。他们到底是怎么做到的?有人能用外行的语言解释吗 假设我有训练数据集{x1,y1,x2,y2…,xm,ym} X是特征,比如说10,y是一个二进制类 最初,重量为wx=1/m 因此,决策树桩弱学习者应根据权重给出hx,hx应为二进制 算法是如何工作的?决策树桩将具有哪些功能?对于增强任务,您需要在算法的每次迭代

我需要增强决策树桩弱分类器。因此,对于每次迭代,我都必须基于特定的权重训练弱分类器。然后,我将在每次迭代后更新权重。到目前为止我已经明白了。但我不清楚的部分是训练基于权重的决策树桩弱分类器。他们到底是怎么做到的?有人能用外行的语言解释吗

假设我有训练数据集{x1,y1,x2,y2…,xm,ym} X是特征,比如说10,y是一个二进制类

最初,重量为wx=1/m

因此,决策树桩弱学习者应根据权重给出hx,hx应为二进制


算法是如何工作的?决策树桩将具有哪些功能?

对于增强任务,您需要在算法的每次迭代中选择最佳分类器。为此,您需要最小化数据集上树桩相对于权重的平均误差,所以在计算分类器的误差度量时,必须考虑对象的权重。因此,分类器对大权重对象错误标注的惩罚将大于对小权重对象错误标注的惩罚

您可以看到我在R语言上对决策树的增强,它工作得很好,对于决策树桩,只需将第132行上的树的深度更改为1,就可以使用不同数量的分类器更改参数T来测试精度

若你们需要更深入的理解:你们可以像《深度之树1》那个样学习树桩。例如,要学习加权数据集上的树,您需要选择特征和值,根据加权度量,通过所选特征以最佳方式将数据集分成两部分。您可以在所有可用特征上使用for循环进行迭代,在嵌套循环中对拾取的特征进行排序,并根据所选特征和分隔符值尝试将数据集的所有可能分隔为两个集合,然后按照wikipedia上的说明计算每个集合上的熵,而不是按照

类x中元素数与集合S中元素数的比例

您需要将集合中类为x的对象的所有权重相加,然后将该数字除以集合中对象的所有权重之和

其中-集合S中对象的所有权重,以及-集合S中类为x的对象的所有权重

然后,您可以计算信息增益,但同样,您需要使用加权比例pt,而不是维基百科数字比例中的变量

其中-从初始值开始的对象权重集未除以分隔符集。 和-集合t中对象的权重集合通过使用一些分隔符值分隔s,您将得到2个集合t

选择能给你们带来最大收益的特征和分隔值,就这样,你们刚刚学会了基于加权数据的新树桩分类器,它已经可以工作了

我制作了一些图片来提供计算示例,这里我只选择了一个分隔符,您需要检查每个可能的分隔符的增益。

对于增强任务,您需要在算法的每次迭代中选择最佳分类器。为此,您需要最小化数据集上树桩相对于权重的平均误差,所以在计算分类器的误差度量时,必须考虑对象的权重。因此,分类器对大权重对象错误标注的惩罚将大于对小权重对象错误标注的惩罚

您可以看到我在R语言上对决策树的增强,它工作得很好,对于决策树桩,只需将第132行上的树的深度更改为1,就可以使用不同数量的分类器更改参数T来测试精度

若你们需要更深入的理解:你们可以像《深度之树1》那个样学习树桩。例如,要学习加权数据集上的树,您需要选择特征和值,根据加权度量,通过所选特征以最佳方式将数据集分成两部分。您可以在所有可用特征上使用for循环进行迭代,在嵌套循环中对拾取的特征进行排序,并根据所选特征和分隔符值尝试将数据集的所有可能分隔为两个集合,然后按照wikipedia上的说明计算每个集合上的熵,而不是按照

类x中元素数与集合S中元素数的比例

您需要将集合中类为x的对象的所有权重相加,然后将该数字除以集合中对象的所有权重之和

其中-集合S中对象的所有权重,以及-集合S中类为x的对象的所有权重

然后,您可以计算信息增益,但同样,您需要使用加权比例pt,而不是维基百科数字比例中的变量

其中-从初始值开始的对象权重集未除以分隔符集。 和-集合t中对象的权重集合通过使用一些分隔符值分隔s,您将得到2个集合t

拾取特征和分隔符值,以提供 您将获得最大的收益,仅此而已,您刚刚学习了基于加权数据的新树桩分类器,它已准备就绪

我制作了一些图片来提供计算示例,这里我只选择了一个分隔符,您需要检查每个可能的分隔符的增益。

谢谢你这么简洁的解释。除了几个方面之外,我都明白了。你能给我一个更详细的解释加权平均错误率吗?同样,你能给出这样一个陈述吗?你需要将同一类物体的所有权重相加,并将这个数字除以这部分物体的所有权重之和,以方程式的形式,以便更好地理解这样一个简洁的解释的范围。除了几个方面之外,我都明白了。你能给我一个更详细的解释加权平均错误率吗?另外,你能给出这样一个陈述吗?你需要将同一类物体的所有权重相加,并将这个数字除以这部分物体的所有权重之和,以方程的形式表示,以便更好地理解