Machine learning 基于熵的加权决策树

Machine learning 基于熵的加权决策树,machine-learning,entropy,decision-tree,Machine Learning,Entropy,Decision Tree,我正在构建一个二叉分类树,用作拆分函数。但是,由于训练数据向几个类倾斜,因此建议通过反向类频率对每个训练示例进行加权 如何加权训练数据?当计算熵的概率时,我是否采用加权平均值 编辑:我想要一个熵和权重的表达式。你引用的维基百科文章谈到了权重。它说: 加权变量 在相互信息的传统表述中 由(x,y)指定的每个事件或对象由相应的概率p(x,y)加权。这假设所有对象或事件除了发生概率之外都是等效的。然而,在某些应用程序中,某些对象或事件可能比其他对象或事件更重要,或者某些关联模式在语义上比其他模式更重

我正在构建一个二叉分类树,用作拆分函数。但是,由于训练数据向几个类倾斜,因此建议通过反向类频率对每个训练示例进行加权

如何加权训练数据?当计算熵的概率时,我是否采用加权平均值


编辑:我想要一个熵和权重的表达式。

你引用的维基百科文章谈到了权重。它说:

加权变量
在相互信息的传统表述中

由(x,y)指定的每个事件或对象由相应的概率p(x,y)加权。这假设所有对象或事件除了发生概率之外都是等效的。然而,在某些应用程序中,某些对象或事件可能比其他对象或事件更重要,或者某些关联模式在语义上比其他模式更重要

例如,确定性映射{(1,1)、(2,2)、(3,3)}可以被视为比确定性映射{(1,3)、(2,1)、(3,2)}更强(根据某些标准),尽管这些关系将产生相同的互信息。这是因为互信息对变量值中的任何固有顺序都不敏感(Cronbach 1954、Coombs&Dawes 1970、Lockhead 1970),因此对相关变量之间的关系映射形式根本不敏感。如果希望前一个关系(显示所有变量值的一致性)比后一个关系更强,则可以使用以下加权互信息(Guiasu 1977)

它将权重w(x,y)放在每个变量值同时出现的概率p(x,y)上。这使得某些概率可能比其他概率具有更多或更少的重要性,从而可以量化相关的整体或prägnanz因素。在上述示例中,对w(1,1)、w(2,2)和w(3,3)使用更大的相对权重将具有评估关系{(1,1)、(2,2)、(3,3)}的更大信息量的效果,这在模式识别等的一些情况下可能是可取的


将状态值加权熵作为投资风险的度量。

反向课堂频率不是你的权重因子吗?是的,正如问题中提到的,“建议按反向课堂频率对每个培训示例进行加权。”我假设你已经知道Wiki信息。那么你想解决什么问题呢?好的,我已经编辑了这个问题并对答案进行了评论,以反映新的变化。是的,我意识到了这一点。我希望得到熵的加权版本。我使用各种熵估计来计算类似于互信息的分数。