Vector 多目标决策树_Vector_Label_Machine Learning_Decision Tree_Multitargeting

Vector 多目标决策树

vector machine-learning

Vector 多目标决策树,vector,label,machine-learning,decision-tree,multitargeting,Vector,Label,Machine Learning,Decision Tree,Multitargeting,这是我的问题。我需要实现一个多目标决策树算法。多目标是多标签学习的扩展，其中标签不是二进制的，但可以是连续的、分类的等等。例如，多标签分类问题的标签向量可以类似于{1,0,1,0,0,0,1}，而多目标问题的标签向量可以类似于{2,35,3，-2,24}。我的问题是这个。如果我有一个带3个离散值的标签，我如何在向量中表示它们？比如说，我有一个名为job的标签，它包含3个价值观：机械师、教师和运动员。如何对该标签进行编码，以便在向量中使用它？在决策树中的每个节点，为了找到我的分割，我需要计算

这是我的问题。我需要实现一个多目标决策树算法。多目标是多标签学习的扩展，其中标签不是二进制的，但可以是连续的、分类的等等。例如，多标签分类问题的标签向量可以类似于{1,0,1,0,0,0,1}，而多目标问题的标签向量可以类似于{2,35,3，-2,24}。我的问题是这个。如果我有一个带3个离散值的标签，我如何在向量中表示它们？比如说，我有一个名为job的标签，它包含3个价值观：机械师、教师和运动员。如何对该标签进行编码，以便在向量中使用它？在决策树中的每个节点，为了找到我的分割，我需要计算该节点中所有标签向量的平均向量（我使用方差法方程来找到我的分割）。如果我有二进制标签，这将很容易，因为添加0和1不会带来任何问题。如果我用0,1,2对这3个作业进行编码，那么这就是问题所在，因为添加具有标签运动员的标签向量比添加具有作业机制和平均向量的向量更不准确

让我们举个例子。我有以下3个标签：

          job: {mechanic,teacher,athlete}
          married:{yes,no}
          age:  continuous value

很容易说，已婚标签可以编码为{0,1}，年龄标签可以编码为连续数字。但是我如何给工作标签编码呢？将其编码为{0,1,2}会导致下一个问题。想象一个节点中有两个标签向量：{0,0,45}对应于机械师，已婚且45岁，{2,1,48}对应于运动员，未已婚，45岁。平均向量为{1,0.5,46.5}。通过这个向量，我可以预测属于该节点的实例的年龄是46.5岁，我可以说该实例未结婚（规则是大于或等于0.5是1），我可以说它的工作是教师。老师的工作是完全错误的，而其他的都是好的。现在您看到了对分类标签进行编码的问题。帮助还是建议？？？谢谢：D

如果值大于2，那么将一个特征的所有离散值都转换为特征，例如：

job: {mechanic, teacher, athlete}
married:{yes, no}
age:  continuous value

将产生一个5维向量

（技工0/1，教师0/1，运动员0/1，已婚0/1，年龄0-inf）

是的，这可能是一个解决方案：D。但这可能需要对预测进行大量后处理，因为它可以预测一个人是技工和教师。您需要以某种方式存储从索引0到索引2的标签来自同一标签，并指定最接近1的标签。但是我想不出任何解决方案不会对数据做一些后期或前期工作，而且这个解决方案可能需要更少的努力。所以，谢谢你：D。我会保持这个帖子的开放性，以防在接下来的几天里有另一个解决方案：D。谢谢你无缘无故地投了反对票，你一定是一个负责任的人