Python sklearn：在随机搜索CV中使用管道？_Python_Numpy_Machine Learning_Scikit Learn

Python sklearn：在随机搜索CV中使用管道？

python numpy machine-learning scikit-learn

Python sklearn：在随机搜索CV中使用管道？,python,numpy,machine-learning,scikit-learn,Python,Numpy,Machine Learning,Scikit Learn,我希望能够在sklearn中的RandomizedSearchCV构造中使用管道。然而，现在我相信只有估计器被支持。以下是我希望能够做到的一个例子： import numpy as np from sklearn.grid_search import RandomizedSearchCV from sklearn.datasets import load_digits from sklearn.svm import SVC from sklearn.preprocessing import S

我希望能够在sklearn中的RandomizedSearchCV构造中使用管道。然而，现在我相信只有估计器被支持。以下是我希望能够做到的一个例子：

import numpy as np

from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler    
from sklearn.pipeline import Pipeline

# get some data
iris = load_digits()
X, y = iris.data, iris.target

# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000], 
          'gamma': [0.001, 0.0001], 
          'kernel': ['rbf', 'linear'],}

# create pipeline with a scaler 
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)

# do search
search = RandomizedSearchCV(pipeline, 
param_distributions=param_dist, n_iter=50)
search.fit(X, y)

print search.grid_scores_

如果只是这样运行，将出现以下错误：

ValueError: Invalid parameter kernel for estimator Pipeline

在sklearn中有没有一种好的方法可以做到这一点？

随机化搜索CV

，以及

GridSearchCV

，都支持管道（事实上，它们独立于它们的实现，管道的设计等同于常用的分类器）
这个问题的关键是非常简单的，如果你认为，应该重新搜索哪些参数。由于管道由许多对象（几个变压器+一个分类器）组成，因此可能需要找到分类器和变压器的最佳参数。因此，您需要以某种方式区分从/到何处获取/设置属性
所以你需要做的是，你想为，比如说，不仅仅是一些抽象的
gamma
（管道根本没有），而是管道分类器的
gamma
，在你的例子中被称为
rbf\u-svm
（这也证明需要名字）。这可以使用双下划线语法实现，该语法在sklearn中广泛用于嵌套模型：

param_dist = { 'rbf_svm__C': [1, 10, 100, 1000], 'rbf_svm__gamma': [0.001, 0.0001], 'rbf_svm__kernel': ['rbf', 'linear'], }
我认为这是你需要的（第3节）

pipeline.get_params（）.keys（）
->确保您的参数网格键与此函数返回的键匹配