Machine learning 文本分类:多标签文本分类与多类别文本分类

Machine learning 文本分类:多标签文本分类与多类别文本分类,machine-learning,text-classification,multilabel-classification,Machine Learning,Text Classification,Multilabel Classification,我有一个关于处理多标签分类问题的方法的问题 基于文献回顾,我发现一种最常用的方法是问题转化法。它将多标签问题转化为多个单标签问题,分类结果只是每个单标签分类器的简单并集,使用二进制相关方法 由于单个标签问题可以归类为二元分类(如果有两个标签)或多类分类问题(如果有多个标签,即标签>2),因此当前的转换方法似乎都将多标签问题转换为多个二元问题。但这将导致数据不平衡问题,因为否定类可能比肯定类拥有更多的文档 因此,我的问题是,为什么不转换为一些多类问题,然后应用直接多类分类算法来避免数据不平衡问题。

我有一个关于处理多标签分类问题的方法的问题

基于文献回顾,我发现一种最常用的方法是问题转化法。它将多标签问题转化为多个单标签问题,分类结果只是每个单标签分类器的简单并集,使用二进制相关方法

由于单个标签问题可以归类为二元分类(如果有两个标签)或多类分类问题(如果有多个标签,即标签>2),因此当前的转换方法似乎都将多标签问题转换为多个二元问题。但这将导致数据不平衡问题,因为否定类可能比肯定类拥有更多的文档

因此,我的问题是,为什么不转换为一些多类问题,然后应用直接多类分类算法来避免数据不平衡问题。在这种情况下,对于一个测试文档,每个经过训练的单标签多类分类器将预测是否分配标签,并且所有此类单标签多类分类器预测结果的联合将是该测试文档的最终标签集

综上所述,将一个多标签分类问题转化为若干个二元分类问题相比,将一个多标签分类问题转化为若干个多类别分类问题可以避免数据不平衡问题。除此之外,上述两种方法都是一样的:你需要构造| L |(| L |表示分类问题中不同标签的总数)单标签(二进制或多类)分类器,你需要准备| L |组训练数据和测试数据,您需要在测试文档上测试每个单个标签分类器,每个单个标签分类器的预测结果的联合就是测试文档的最终标签集


希望任何人都能帮助澄清我的困惑,非常感谢

您描述的是一种已知的多类问题转换策略,称为标签幂集转换策略

这种方法的缺点:

  • LP转换可能导致最多2^ L |转换 标签
  • 阶级失衡问题
请参阅: 切曼、埃弗顿·阿尔瓦雷斯、玛丽亚·卡罗莱纳·莫纳德和让·梅茨。“多标签问题转换方法:一个案例研究”,《克莱电子杂志》14.1(2011):4-4.