Python 每列车数据类标签非均匀分布的多标签文本分类

Python 每列车数据类标签非均匀分布的多标签文本分类,python,classification,sentiment-analysis,text-classification,multilabel-classification,Python,Classification,Sentiment Analysis,Text Classification,Multilabel Classification,我有一个多标签分类问题,我想用六个标签对文本进行分类,每个文本可以有一到六个标签,但这个标签分布是不相等的。例如,10个人对句子1的注释如下: 这些标签是该类别的投票数。我可以将它们正常化,如悲伤0.7,愤怒0.2,恐惧0.1,快乐0.0, 对于这个问题,什么是最好的分类器?标签的最佳类型是什么?我的意思是我是否应该规范化它们? 对于这种标签概率不相等的多标签分类问题,我应该搜索哪些关键字?首先,我想澄清一下,我是否正确理解了您的问题。你有句子=[sent1,sent2,…sentn],你想把

我有一个多标签分类问题,我想用六个标签对文本进行分类,每个文本可以有一到六个标签,但这个标签分布是不相等的。例如,10个人对句子1的注释如下:

这些标签是该类别的投票数。我可以将它们正常化,如悲伤0.7,愤怒0.2,恐惧0.1,快乐0.0,

对于这个问题,什么是最好的分类器?标签的最佳类型是什么?我的意思是我是否应该规范化它们?


对于这种标签概率不相等的多标签分类问题,我应该搜索哪些关键字?

首先,我想澄清一下,我是否正确理解了您的问题。你有句子=[sent1,sent2,…sentn],你想把它们分成这六个标签标签=[l1,l2,…,l6]。您的数据不是标签本身,而是文本中存在该标签的可能性。你还提到六个标签来自人类注释(我不知道你说的10个人评论是什么意思,我猜是注释)

如果是这种情况,您可以使用多标签分类或多目标回归透视图来处理该问题。在这两种情况下,我将探讨如何处理数据:

  • 多标签分类:在这种情况下,您需要为每个句子定义类,以便可以训练您的模型。现在你只有概率了。您可以通过创建阈值来实现这一点,并且高于阈值的标签的概率可以被视为句子的标签。您可以阅读有关评估指标的更多信息
  • 多目标回归:在这种情况下,您不需要定义类别,只需使用训练输入,我们使用数据预测每个标签的概率。考虑到你们的数据收集,我认为这是一个更好、更容易的问题。如果您想了解更多关于多目标回归的问题,您可以阅读更多关于它的内容,但是本教程中使用的模型不是最先进的(请注意) 培训模型:此任务既可以使用浅层模型,也可以使用深层模型。您需要一个模型,该模型可以接收一个句子作为输入,并预测六个标签或六个概率。我建议你考虑一下,这可能是你工作的一个很好的起点。作者提供了一个关于如何使用深度神经网络构建多标签文本分类器的教程。他最终基本上构建了一个LSTM和一个前馈层来对标签进行分类。如果您决定使用回归而不是分类,您可以在最后放弃激活

    最好的结果很可能是通过深度神经网络获得的,所以我发给你的文章可以很好地工作。我还建议您看看最先进的文本分类方法,例如BERT或XLNET。我用实现了一个多标签分类方法,也许对你有帮助