Scikit learn 如何在scikit学习管道中绑定参数?

Scikit learn 如何在scikit学习管道中绑定参数?,scikit-learn,keras,Scikit Learn,Keras,我有一个管道对象,我想使用随机搜索CV优化其超参数,但我需要绑定两个参数,即如果一个参数设置为值,另一个参数将自动设置为相同的值 以下是我的具体案例:我将一个PCA链接到一个Keras分类器,该分类器需要明确其输入dimnbFeature。显然,当两者不匹配时,这种方法就失败了。请参见下面的玩具示例: #设置 将numpy作为np导入 从sklearn.pipeline导入管道 从sklearn.decomposition导入PCA 从sklearn.model_选择导入随机化搜索CV 从ker

我有一个
管道
对象,我想使用
随机搜索CV
优化其超参数,但我需要绑定两个参数,即如果一个参数设置为值,另一个参数将自动设置为相同的值

以下是我的具体案例:我将一个PCA链接到一个Keras分类器,该分类器需要明确其输入dim
nbFeature
。显然,当两者不匹配时,这种方法就失败了。请参见下面的玩具示例:

#设置
将numpy作为np导入
从sklearn.pipeline导入管道
从sklearn.decomposition导入PCA
从sklearn.model_选择导入随机化搜索CV
从keras.models导入顺序
从keras.layers导入稠密
从keras.wrappers.scikit_学习导入KerasClassifier
#玩具数据
n=500
p=100
X=np.random.normal(大小=(n,p))
Y=np.串联((np.零(int(n/2)),np.一(int(n/2)))
#玩具管道
nbFeature=10#在PCA和我的Keras模型之间绑定的家伙
减速器=PCA(n_组件=NB特征)
def myBasicDense(n_功能):
返回KerasClassifier(build\u fn=buildfn\u myBasicDense,n\u feature=n\u feature,verbose=0)
def构建fn_myBasicDense(n_功能=777):
模型=顺序()
添加(密集型(1,输入尺寸=n功能,激活='softmax'))
compile(优化器='rmsprop',loss='binary\u crossentropy',metrics=['accurity'])
回归模型
model=myBasicDense(n_feature=nbFeature)#尝试使用“reducer.n_components”,但这只使用一次值,而不是绑定
pipeStep=[('reducer',reducer),('model',model)]
管道=管道(管道步骤)
#运行RandomizedSearchCV
#仅当采样的“减速器部件”和“模型部件”相等时,此功能才起作用
gridDist={'reducer_un_components':[10,50],'model_un_feature':[10,50]}
n_iter_search=2
optimizedPipe=RandomizedSearchCV(
重新安装=正确,
估算器=管道,
参数分布=网格分布,
n_iter=n_iter_search,
得分=‘准确度’,
cv=3,
详细=2,
random_state=12#被选中,因此在第二轮中失败。。。
)
优化管道配合(X,Y)
我的问题是:有没有一种方法可以指定管道的两个或多个参数必须始终相同,这样我就可以网格搜索其中一个

(或者,欢迎使用任何变通方法,包括更好地使用
RandomizedSearchCV


非常感谢

您的问题有两种解决方案:

更新:此方法仅适用于GridSearchCV,而不适用于随机化SearchCV。请使用下面的(2)

1) 将gridDist中的参数分组在一起

而不是

gridDist = {'reducer__n_components': [10, 50],'model__n_feature': [10, 50]}
您应该这样做:

gridDist = [{'reducer__n_components': [10],'model__n_feature': [10]},
            {'reducer__n_components': [50],'model__n_feature': [50]}]
它做的是两本字典。字典中的参数总是一起探讨的。因此,n_组件和n_特征值始终相同。有关此类参数网格的更好用法,请参见此示例:

2) 按照我在评论中的建议制作一个包装器。大概是这样的:

def myBasicDense(n_feature):
    return KerasClassifier(build_fn= buildfn_myBasicDense, n_feature=n_feature, verbose=0) 
def buildfn_myBasicDense(n_feature=777):
    model = Sequential()
    model.add(Dense(1,input_dim=n_feature,activation='softmax'))
    model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['accuracy'])
    return model

class CustomWrapper(BaseEstimator, ClassifierMixin):

    def __init__(self, n_features=10):
        self.n_features = n_features

        # This n_features is passed to both your parts of the pipeline
        self.pipe = Pipeline([('reducer',PCA(n_components=n_features)),('model', myBasicDense(n_feature=n_features))])

    def fit(self, X, y):

        self.pipe.fit(X, y)
        return self

    def predict(self, X):
        return self.pipe.predict(X)

    def set_params(self, **params):
        super(CustomWrapper, self).set_params(**params)
        self.pipe = Pipeline([('reducer',PCA(n_components=self.n_features)),('model',myBasicDense(n_feature=self.n_features))])
        return self
现在您只有一个超参数可以搜索-
n\u功能
。因此,您的参数网格变为:

gridDist = {'n_features': [10, 50]}
然后按如下方式初始化随机搜索:

wrapperModel = CustomWrapper()

optimizedPipe = RandomizedSearchCV(
        refit=True,        
        estimator=wrapperModel,
        param_distributions=gridDist,
        n_iter=n_iter_search,
        scoring='accuracy',
        cv=3,         
        verbose=2,
        random_state=12 # chosen so that is fails on second round...
        )

将两个步骤组合在一个包装器中,该包装器将参数作为输入,并将它们传递给两个步骤。嗨,Vivek。谢谢,你能详细说明一下吗?嗨,Vivek,我认为这是可以的,因为CV运行时没有错误,但我意识到在导入分离后,
n_功能
实际上在CV期间不会在估计器中更新。如果我们在
CustomWrapper.buildfn\u myBasicDense
中添加
打印(n\u功能)
,这是可见的:它保持为
的默认值。这有点像如果没有正确调用
set_params
,但我不明白为什么,因为我们使用了类的继承
BaseEstimator
ClassifierMixin
(如[doc]中所述))@0-树否,它与set_params()无关。这就是keras build_fn的工作方式。我已经编辑了代码来处理它。现在似乎确实可以工作了,谢谢!不是很重要,但是你介意解释一下为什么我们需要这个额外的super()调用吗?这种情况是不是特别因为我们在这里使用keras分类器?@0-tree否,因为我们正在重写set_params()调用,因此我们需要确保调用了BaseEstimator中的原始集合_params()。然后我们通过再次初始化管道来为Keras执行所需操作。@0-tree对于您建议的编辑,我拒绝了它,因为我们已经在CustomWrapper中,所以我认为不适合再次初始化它。