Machine learning 使用具有多个结果的C4.5分类器

Machine learning 使用具有多个结果的C4.5分类器,machine-learning,Machine Learning,我在看C4.5分类器的机器学习任务。我有一个包含城市名称的大型数据集,需要区分安大略省伦敦、英国伦敦甚至法国勃艮第的伦敦,但要查看周围文本的特征:例如邮政编码、州名,即使没有提到“加拿大”或“英国”。我还可以访问元数据,如拨号代码,这有助于确定它是哪个国家 随后,一旦训练完成,我想在大型数据集上运行分类器 在我发现的所有示例中,结果只有两种状态(在这个高尔夫示例中,是玩还是不玩) c4.5分类器能否将伦敦(加拿大)、伦敦(英国)、伦敦(法国)作为结果类处理,或者我是否需要为伦敦(加拿大)的Tru

我在看C4.5分类器的机器学习任务。我有一个包含城市名称的大型数据集,需要区分安大略省伦敦、英国伦敦甚至法国勃艮第的伦敦,但要查看周围文本的特征:例如邮政编码、州名,即使没有提到“加拿大”或“英国”。我还可以访问元数据,如拨号代码,这有助于确定它是哪个国家

随后,一旦训练完成,我想在大型数据集上运行分类器

在我发现的所有示例中,结果只有两种状态(在这个高尔夫示例中,是玩还是不玩)


c4.5分类器能否将伦敦(加拿大)、伦敦(英国)、伦敦(法国)作为结果类处理,或者我是否需要为伦敦(加拿大)的True/False等设置不同的分类器?

在您的案例中,我看到了两个选项

  • 第一种方法是对c4.5的直接扩展。在每个叶节点中,保留所有标签,而不仅仅是多数标签。例如,如下图所示,红色标签实际上存在于三个不同的叶子中。当您在箭头所指的数据点进行查询时,输出为3个标签(绿色、红色和蓝色)及其相应的条件概率
    p(c | v)
    (给定特征
    x1
    x2
    ,数据
    x
    属于类
    c
    )的概率是多少

  • 第二种方法是生成多个决策树,从而生成一个随机林。随机性可以通过对每个树可用的训练数据子集进行随机抽样来注入。在分类时,您可以聚合来自所有决策树的投票,以获得多类分类结果

这些数字借鉴了安德鲁·齐塞尔马(Andrew Zisserma)的这篇关于多类分类的优秀文章