Machine learning 使用具有多个结果的C4.5分类器_Machine Learning

Machine learning 使用具有多个结果的C4.5分类器

machine-learning

Machine learning 使用具有多个结果的C4.5分类器,machine-learning,Machine Learning,我在看C4.5分类器的机器学习任务。我有一个包含城市名称的大型数据集，需要区分安大略省伦敦、英国伦敦甚至法国勃艮第的伦敦，但要查看周围文本的特征：例如邮政编码、州名，即使没有提到“加拿大”或“英国”。我还可以访问元数据，如拨号代码，这有助于确定它是哪个国家随后，一旦训练完成，我想在大型数据集上运行分类器在我发现的所有示例中，结果只有两种状态（在这个高尔夫示例中，是玩还是不玩） c4.5分类器能否将伦敦（加拿大）、伦敦（英国）、伦敦（法国）作为结果类处理，或者我是否需要为伦敦（加拿大）的Tru

我在看C4.5分类器的机器学习任务。我有一个包含城市名称的大型数据集，需要区分安大略省伦敦、英国伦敦甚至法国勃艮第的伦敦，但要查看周围文本的特征：例如邮政编码、州名，即使没有提到“加拿大”或“英国”。我还可以访问元数据，如拨号代码，这有助于确定它是哪个国家

随后，一旦训练完成，我想在大型数据集上运行分类器

在我发现的所有示例中，结果只有两种状态（在这个高尔夫示例中，是玩还是不玩）

c4.5分类器能否将伦敦（加拿大）、伦敦（英国）、伦敦（法国）作为结果类处理，或者我是否需要为伦敦（加拿大）的True/False等设置不同的分类器？

在您的案例中，我看到了两个选项

第一种方法是对c4.5的直接扩展。在每个叶节点中，保留所有标签，而不仅仅是多数标签。例如，如下图所示，红色标签实际上存在于三个不同的叶子中。当您在箭头所指的数据点进行查询时，输出为3个标签（绿色、红色和蓝色）及其相应的条件概率
```
p（c | v）
```
（给定特征
```
x1
```
和
```
x2
```
，数据
```
x
```
属于类
```
c
```
）的概率是多少

第二种方法是生成多个决策树，从而生成一个随机林。随机性可以通过对每个树可用的训练数据子集进行随机抽样来注入。在分类时，您可以聚合来自所有决策树的投票，以获得多类分类结果

这些数字借鉴了安德鲁·齐塞尔马（Andrew Zisserma）的这篇关于多类分类的优秀文章