Scikit learn 支持向量机的稀疏数据中心化

Scikit learn 支持向量机的稀疏数据中心化,scikit-learn,svm,Scikit Learn,Svm,我了解到,当您运行支持向量机时,您应该将数据集中,并将组件标准化为单位方差。然而,我的原始数据非常稀疏,以这种方式对数据进行预处理会使数据变得密集。这似乎使我的模型火车非常慢。如果您使用的是现成的SVM实现,您将如何处理这个问题?没有必要以这种方式进行扩展。您可以只缩放,不居中,或者只除以绝对最大值,使数据在-1和1的范围内。每个实例的SVM代码中动态复制预处理数据的可能性,这样您就可以通过少量执行保持内存公平。您还可以考虑使用其他模型,如RandomForests。

我了解到,当您运行支持向量机时,您应该将数据集中,并将组件标准化为单位方差。然而,我的原始数据非常稀疏,以这种方式对数据进行预处理会使数据变得密集。这似乎使我的模型火车非常慢。如果您使用的是现成的SVM实现,您将如何处理这个问题?

没有必要以这种方式进行扩展。您可以只缩放,不居中,或者只除以绝对最大值,使数据在-1和1的范围内。

每个实例的SVM代码中动态复制预处理数据的可能性,这样您就可以通过少量执行保持内存公平。您还可以考虑使用其他模型,如RandomForests。