Python 将分类数据转换为数字数据scikit学习优化
我有一个包含分类数据的数据集,我使用DictVectorizer将数据转换为数字Python 将分类数据转换为数字数据scikit学习优化,python,scikit-learn,Python,Scikit Learn,我有一个包含分类数据的数据集,我使用DictVectorizer将数据转换为数字 # training data vect = DictVectorizer(sparse=False) x = vect.fit_transform(samples) # test data vect.transform(samples) 但是,这段代码会在大型数据集中产生内存问题,因为当每个类别都由许多类型组成时,它会消耗太多内存 我想要一个或多个算法来解决内存开销问题 升级scikit学习 将稀疏更改为tr
# training data
vect = DictVectorizer(sparse=False)
x = vect.fit_transform(samples)
# test data
vect.transform(samples)
但是,这段代码会在大型数据集中产生内存问题,因为当每个类别都由许多类型组成时,它会消耗太多内存
我想要一个或多个算法来解决内存开销问题
尝试将稀疏更改为
true
谢谢Harpal。我使用矢量器为决策树分类器准备数据。当我变稀疏为真。我得到了错误类型错误:传递了稀疏矩阵,但需要密集数据。使用X.toarray()转换为密集的numpy数组。我知道我可以使用X.todense(),但它会增加内存占用,这会导致内存错误。是否有更好的方法对大数据进行矢量化?请更新您的scikit learn版本。我们支持树中的稀疏数据已有一段时间了。