Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/swift/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 我能让支持向量机在大数据集上运行得更快吗?_Python_Python 3.x_Scikit Learn_Svm - Fatal编程技术网

Python 我能让支持向量机在大数据集上运行得更快吗?

Python 我能让支持向量机在大数据集上运行得更快吗?,python,python-3.x,scikit-learn,svm,Python,Python 3.x,Scikit Learn,Svm,我有一个大约35000 x 27的大数据集。我正在线性和多项式回归中运行sklearn SVM。我的运行时间有时是30分钟或更长。有没有更有效的方法来运行我的SVM 我尝试过删除不必要的数据显示,尝试不同的测试和训练组合,但总是接近相同的持续时间。但是,运行高斯或RBF大约需要6分钟,但精度要低得多 作为pd进口熊猫 将numpy作为np导入 将matplotlib.pyplot作为plt导入 从sklearn.model\u选择导入列车\u测试\u拆分 从sk学习输入svm 从SKM学习导入度

我有一个大约35000 x 27的大数据集。我正在线性和多项式回归中运行sklearn SVM。我的运行时间有时是30分钟或更长。有没有更有效的方法来运行我的SVM

我尝试过删除不必要的数据显示,尝试不同的测试和训练组合,但总是接近相同的持续时间。但是,运行高斯或RBF大约需要6分钟,但精度要低得多

作为pd进口熊猫 将numpy作为np导入 将matplotlib.pyplot作为plt导入 从sklearn.model\u选择导入列车\u测试\u拆分 从sk学习输入svm 从SKM学习导入度量 proteindata=pd.read\u csvdata.csv np.anynp.isnanproteindata printproteindata.shape printproteindata.columns printproteindata.head X=proteindata.dropClass,轴=1 y=蛋白质数据[类别] X_系列,X_测试,y_系列,y_测试=系列测试,X,y,测试尺寸=0.40 分类器=svm.SVCkernel='poly' 1.fitX_列,y_列 y_pred=分类器.predictX_测试 打印准确度:,度量。准确度\分数\测试,预测
除了被告知手动设置gamma之外,我没有收到任何错误。

看看其中包含了使用较小训练模型的集合来决定最佳分类器的思想。其基本思想是对大量较小的数据子集进行训练。采用聚合模型后,仍然会合并来自所有数据的信息,而无需同时对所有数据进行训练,尽管它不会完全等效。由于SVM的训练时间与样本数成二次比例,因此对数据子集的训练应该快得多。

等等,你是回归还是分类?仅供参考,SVM仅适用于二进制类。如果有多个目标值,Sklearn将为每对目标OVO训练一个模型。如果你有5个不同的分类,那么需要训练32个不同的分类器。这也许可以解释。这是一个2类分类,1或0。