Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/345.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将分类数据转换为数字数据scikit学习优化_Python_Scikit Learn - Fatal编程技术网

Python 将分类数据转换为数字数据scikit学习优化

Python 将分类数据转换为数字数据scikit学习优化,python,scikit-learn,Python,Scikit Learn,我有一个包含分类数据的数据集,我使用DictVectorizer将数据转换为数字 # training data vect = DictVectorizer(sparse=False) x = vect.fit_transform(samples) # test data vect.transform(samples) 但是,这段代码会在大型数据集中产生内存问题,因为当每个类别都由许多类型组成时,它会消耗太多内存 我想要一个或多个算法来解决内存开销问题 升级scikit学习 将稀疏更改为tr

我有一个包含分类数据的数据集,我使用DictVectorizer将数据转换为数字

# training data
vect = DictVectorizer(sparse=False)
x =  vect.fit_transform(samples)
# test data
vect.transform(samples)
但是,这段代码会在大型数据集中产生内存问题,因为当每个类别都由许多类型组成时,它会消耗太多内存

我想要一个或多个算法来解决内存开销问题

  • 升级scikit学习
  • 将稀疏更改为true

    vect=指令向量器(稀疏=假)


  • 尝试将稀疏更改为
    true
    谢谢Harpal。我使用矢量器为决策树分类器准备数据。当我变稀疏为真。我得到了错误类型错误:传递了稀疏矩阵,但需要密集数据。使用X.toarray()转换为密集的numpy数组。我知道我可以使用X.todense(),但它会增加内存占用,这会导致内存错误。是否有更好的方法对大数据进行矢量化?请更新您的scikit learn版本。我们支持树中的稀疏数据已有一段时间了。