Pandas 一种大数据集的热编码

Pandas 一种大数据集的热编码,pandas,scikit-learn,one-hot-encoding,apriori,mlxtend,Pandas,Scikit Learn,One Hot Encoding,Apriori,Mlxtend,我想使用关联规则构建推荐系统,并在mlxtend库apriori算法中实现。在我的销售数据中,有3600万笔交易和5万种独特产品的信息。 我尝试使用sklearn OneHotEncoder和pandas get_dummies(),但都给出了OOM错误,因为它们无法创建(36 mil,50k)形状的帧 还有其他解决方案吗?我认为一个好的解决方案是使用嵌入而不是一个热编码来解决您的问题。此外,我建议您将数据集拆分为更小的子集,以进一步避免内存消耗问题 您还应参考此线程: MemoryError:

我想使用关联规则构建推荐系统,并在mlxtend库apriori算法中实现。在我的销售数据中,有3600万笔交易和5万种独特产品的信息。 我尝试使用sklearn OneHotEncoder和pandas get_dummies(),但都给出了OOM错误,因为它们无法创建(36 mil,50k)形状的帧


还有其他解决方案吗?

我认为一个好的解决方案是使用嵌入而不是一个热编码来解决您的问题。此外,我建议您将数据集拆分为更小的子集,以进一步避免内存消耗问题

您还应参考此线程:

MemoryError: Unable to allocate 398. GiB for an array with shape (36113798, 50087) and data type uint8