Scikit learn LabelBinarizer（）需要花费很长时间_Scikit Learn

Scikit learn LabelBinarizer（）需要花费很长时间

scikit-learn

Scikit learn LabelBinarizer（）需要花费很长时间,scikit-learn,Scikit Learn,试图为一个庞大的数据集进行多标签分类。我有大约4000个独特的标签，所以当我尝试使用LabelBinarizer（）.fit（yTuple）/transform时，它只需要永远。根据标签数量和行数（600万行），这是正常的还是我做错了什么笔记本电脑配置：Mac，i5四核，16 GB内存，剩余硬盘空间足够（约250 GB可用空间）代码很简单，但仍将其粘贴到此处： yTuple = [tuple(item.split(' ')) for item in getY(filepath)] lb =

试图为一个庞大的数据集进行多标签分类。我有大约4000个独特的标签，所以当我尝试使用LabelBinarizer（）.fit（yTuple）/transform时，它只需要永远。根据标签数量和行数（600万行），这是正常的还是我做错了什么

笔记本电脑配置：Mac，i5四核，16 GB内存，剩余硬盘空间足够（约250 GB可用空间）

代码很简单，但仍将其粘贴到此处：

yTuple = [tuple(item.split(' ')) for item in getY(filepath)]
lb = LabelBinarizer().fit(yTuple)
Y_indicator = lb.transform(yTuple)

getY（filepath）-这将一次返回一行的标签集。

标签数组大约需要4000*6e6*8字节，即179GB。scikit learn无法达到这种开箱即用的大规模多类分类。

如果您有足够的内存，您可能希望尝试使用pandas get_dummies来代替。

谢谢您的确认。