Python 大型数据集的多标签分类方法

Python 大型数据集的多标签分类方法,python,scikit-learn,multilabel-classification,Python,Scikit Learn,Multilabel Classification,我意识到还有一个标题类似的问题,但我的数据集非常不同 我有将近4000万行和大约3000个标签。运行简单的sklearn train\u test\u split需要近20分钟 我最初使用的是多类分类模型,因为这是我的全部经验,并且意识到,由于我需要提出一个特定记录可以绑定到的所有可能的标签,我应该使用多标签分类方法 我正在寻找如何有效地做到这一点的建议。我尝试了二进制关联,这花了将近4个小时来训练。22小时后,分类器链出现内存错误。我不敢尝试标签powerset,因为我已经读到它们不能很好地处

我意识到还有一个标题类似的问题,但我的数据集非常不同

我有将近4000万行和大约3000个标签。运行简单的sklearn train\u test\u split需要近20分钟

我最初使用的是多类分类模型,因为这是我的全部经验,并且意识到,由于我需要提出一个特定记录可以绑定到的所有可能的标签,我应该使用多标签分类方法

我正在寻找如何有效地做到这一点的建议。我尝试了二进制关联,这花了将近4个小时来训练。22小时后,分类器链出现内存错误。我不敢尝试标签powerset,因为我已经读到它们不能很好地处理大量数据。最后,我得到了自适应算法,MlkNN,然后是集成方法(我也担心性能)


其他人是否有处理此类问题和数据量的经验?除了建议的模式外,我还希望获得关于最佳培训方法的建议,如培训测试分割比率或不同/更好的方法。

20分钟对于这种规模的工作似乎没有那么长,4小时的培训也没有那么长


我真的想试试华比。它擅长于这种多标签问题,如果您所追求的是这样的话,它可能会提供无与伦比的性能。它需要大量的调整,并且仍然需要高质量的培训数据,但这是值得的。这本质上只是一个二进制分类问题。当然,一个合奏会花更长的时间,所以考虑到你的准确性要求是否有必要。

这个问题可能更适合于如果它适合那个网站。我怎样才能移动它?我是不是只是删除了这篇文章,然后转载?只是好奇,你说的多类别分类是什么意思?它与多标签分类有什么不同?我指的是多类别分类,其中每个数据点只能归入一个类别,而多标签意味着每个数据点可以分配到多个标签。我从未听说过vowpal rabbit。您在windows机器上和python上使用过这个工具吗?我在Linux上使用过python客户端和命令行实用程序,但它看起来与windows完全兼容。我认为它实际上是微软研究的一部分。