Python 大型数据集的多标签分类方法_Python_Scikit Learn_Multilabel Classification

Python 大型数据集的多标签分类方法

python scikit-learn

Python 大型数据集的多标签分类方法,python,scikit-learn,multilabel-classification,Python,Scikit Learn,Multilabel Classification,我意识到还有一个标题类似的问题，但我的数据集非常不同我有将近4000万行和大约3000个标签。运行简单的sklearn train\u test\u split需要近20分钟我最初使用的是多类分类模型，因为这是我的全部经验，并且意识到，由于我需要提出一个特定记录可以绑定到的所有可能的标签，我应该使用多标签分类方法我正在寻找如何有效地做到这一点的建议。我尝试了二进制关联，这花了将近4个小时来训练。22小时后，分类器链出现内存错误。我不敢尝试标签powerset，因为我已经读到它们不能很好地处

我意识到还有一个标题类似的问题，但我的数据集非常不同

我有将近4000万行和大约3000个标签。运行简单的sklearn train\u test\u split需要近20分钟

我最初使用的是多类分类模型，因为这是我的全部经验，并且意识到，由于我需要提出一个特定记录可以绑定到的所有可能的标签，我应该使用多标签分类方法

我正在寻找如何有效地做到这一点的建议。我尝试了二进制关联，这花了将近4个小时来训练。22小时后，分类器链出现内存错误。我不敢尝试标签powerset，因为我已经读到它们不能很好地处理大量数据。最后，我得到了自适应算法，MlkNN，然后是集成方法（我也担心性能）

其他人是否有处理此类问题和数据量的经验？除了建议的模式外，我还希望获得关于最佳培训方法的建议，如培训测试分割比率或不同/更好的方法。

20分钟对于这种规模的工作似乎没有那么长，4小时的培训也没有那么长

我真的想试试华比。它擅长于这种多标签问题，如果您所追求的是这样的话，它可能会提供无与伦比的性能。它需要大量的调整，并且仍然需要高质量的培训数据，但这是值得的。这本质上只是一个二进制分类问题。当然，一个合奏会花更长的时间，所以考虑到你的准确性要求是否有必要。

这个问题可能更适合于如果它适合那个网站。我怎样才能移动它？我是不是只是删除了这篇文章，然后转载？只是好奇，你说的多类别分类是什么意思？它与多标签分类有什么不同？我指的是多类别分类，其中每个数据点只能归入一个类别，而多标签意味着每个数据点可以分配到多个标签。我从未听说过vowpal rabbit。您在windows机器上和python上使用过这个工具吗？我在Linux上使用过python客户端和命令行实用程序，但它看起来与windows完全兼容。我认为它实际上是微软研究的一部分。