Scikit learn LabelBinarizer()需要花费很长时间

Scikit learn LabelBinarizer()需要花费很长时间,scikit-learn,Scikit Learn,试图为一个庞大的数据集进行多标签分类。我有大约4000个独特的标签,所以当我尝试使用LabelBinarizer().fit(yTuple)/transform时,它只需要永远。根据标签数量和行数(600万行),这是正常的还是我做错了什么 笔记本电脑配置:Mac,i5四核,16 GB内存,剩余硬盘空间足够(约250 GB可用空间) 代码很简单,但仍将其粘贴到此处: yTuple = [tuple(item.split(' ')) for item in getY(filepath)] lb =

试图为一个庞大的数据集进行多标签分类。我有大约4000个独特的标签,所以当我尝试使用LabelBinarizer().fit(yTuple)/transform时,它只需要永远。根据标签数量和行数(600万行),这是正常的还是我做错了什么

笔记本电脑配置:Mac,i5四核,16 GB内存,剩余硬盘空间足够(约250 GB可用空间)

代码很简单,但仍将其粘贴到此处:

yTuple = [tuple(item.split(' ')) for item in getY(filepath)]
lb = LabelBinarizer().fit(yTuple)
Y_indicator = lb.transform(yTuple)

getY(filepath)-这将一次返回一行的标签集。

标签数组大约需要4000*6e6*8字节,即179GB。scikit learn无法达到这种开箱即用的大规模多类分类。

如果您有足够的内存,您可能希望尝试使用pandas get_dummies来代替。

谢谢您的确认。