Scikit learn 如何在scikit学习管道中绑定参数？_Scikit Learn_Keras

Scikit learn 如何在scikit学习管道中绑定参数？

scikit-learn keras

Scikit learn 如何在scikit学习管道中绑定参数？,scikit-learn,keras,Scikit Learn,Keras,我有一个管道对象，我想使用随机搜索CV优化其超参数，但我需要绑定两个参数，即如果一个参数设置为值，另一个参数将自动设置为相同的值以下是我的具体案例：我将一个PCA链接到一个Keras分类器，该分类器需要明确其输入dimnbFeature。显然，当两者不匹配时，这种方法就失败了。请参见下面的玩具示例： #设置将numpy作为np导入从sklearn.pipeline导入管道从sklearn.decomposition导入PCA 从sklearn.model_选择导入随机化搜索CV 从ker

我有一个

管道

对象，我想使用

随机搜索CV

优化其超参数，但我需要绑定两个参数，即如果一个参数设置为值，另一个参数将自动设置为相同的值

以下是我的具体案例：我将一个PCA链接到一个Keras分类器，该分类器需要明确其输入dim

nbFeature

。显然，当两者不匹配时，这种方法就失败了。请参见下面的玩具示例：

#设置
将numpy作为np导入
从sklearn.pipeline导入管道
从sklearn.decomposition导入PCA
从sklearn.model_选择导入随机化搜索CV
从keras.models导入顺序
从keras.layers导入稠密
从keras.wrappers.scikit_学习导入KerasClassifier
#玩具数据
n=500
p=100
X=np.random.normal（大小=（n，p））
Y=np.串联（（np.零（int（n/2）），np.一（int（n/2）））
#玩具管道
nbFeature=10#在PCA和我的Keras模型之间绑定的家伙
减速器=PCA（n_组件=NB特征）
def myBasicDense（n_功能）：
返回KerasClassifier（build\u fn=buildfn\u myBasicDense，n\u feature=n\u feature，verbose=0）
def构建fn_myBasicDense（n_功能=777）：
模型=顺序（）
添加（密集型（1，输入尺寸=n功能，激活='softmax'））
compile（优化器='rmsprop'，loss='binary\u crossentropy'，metrics=['accurity']）
回归模型
model=myBasicDense（n_feature=nbFeature）#尝试使用“reducer.n_components”，但这只使用一次值，而不是绑定
pipeStep=[（'reducer'，reducer），（'model'，model）]
管道=管道（管道步骤）
#运行RandomizedSearchCV
#仅当采样的“减速器部件”和“模型部件”相等时，此功能才起作用
gridDist={'reducer_un_components'：[10,50]，'model_un_feature'：[10,50]}
n_iter_search=2
optimizedPipe=RandomizedSearchCV(
重新安装=正确，
估算器=管道，
参数分布=网格分布，
n_iter=n_iter_search，
得分=‘准确度’，
cv=3，
详细=2，
random_state=12#被选中，因此在第二轮中失败。。。
)
优化管道配合（X，Y）

我的问题是：有没有一种方法可以指定管道的两个或多个参数必须始终相同，这样我就可以网格搜索其中一个
（或者，欢迎使用任何变通方法，包括更好地使用
RandomizedSearchCV
）

非常感谢
您的问题有两种解决方案：
更新：此方法仅适用于GridSearchCV，而不适用于随机化SearchCV。请使用下面的（2）
1）将gridDist中的参数分组在一起
而不是

gridDist = {'reducer__n_components': [10, 50],'model__n_feature': [10, 50]}
您应该这样做：

gridDist = [{'reducer__n_components': [10],'model__n_feature': [10]}, {'reducer__n_components': [50],'model__n_feature': [50]}]
它做的是两本字典。字典中的参数总是一起探讨的。因此，n_组件和n_特征值始终相同。有关此类参数网格的更好用法，请参见此示例：

2）按照我在评论中的建议制作一个包装器。大概是这样的：

def myBasicDense(n_feature): return KerasClassifier(build_fn= buildfn_myBasicDense, n_feature=n_feature, verbose=0) def buildfn_myBasicDense(n_feature=777): model = Sequential() model.add(Dense(1,input_dim=n_feature,activation='softmax')) model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['accuracy']) return model class CustomWrapper(BaseEstimator, ClassifierMixin): def __init__(self, n_features=10): self.n_features = n_features # This n_features is passed to both your parts of the pipeline self.pipe = Pipeline([('reducer',PCA(n_components=n_features)),('model', myBasicDense(n_feature=n_features))]) def fit(self, X, y): self.pipe.fit(X, y) return self def predict(self, X): return self.pipe.predict(X) def set_params(self, **params): super(CustomWrapper, self).set_params(**params) self.pipe = Pipeline([('reducer',PCA(n_components=self.n_features)),('model',myBasicDense(n_feature=self.n_features))]) return self
现在您只有一个超参数可以搜索-
n\u功能
。因此，您的参数网格变为：

gridDist = {'n_features': [10, 50]}
然后按如下方式初始化随机搜索：

wrapperModel = CustomWrapper() optimizedPipe = RandomizedSearchCV( refit=True, estimator=wrapperModel, param_distributions=gridDist, n_iter=n_iter_search, scoring='accuracy', cv=3, verbose=2, random_state=12 # chosen so that is fails on second round... )

将两个步骤组合在一个包装器中，该包装器将参数作为输入，并将它们传递给两个步骤。嗨，Vivek。谢谢，你能详细说明一下吗？嗨，Vivek，我认为这是可以的，因为CV运行时没有错误，但我意识到在导入分离后，
n_功能
实际上在CV期间不会在估计器中更新。如果我们在
CustomWrapper.buildfn\u myBasicDense
中添加
打印（n\u功能）
，这是可见的：它保持为
的默认值。这有点像如果没有正确调用set_params ，但我不明白为什么，因为我们使用了类的继承BaseEstimator 和ClassifierMixin （如[doc]中所述））@0-树否，它与set_params（）无关。这就是keras build_fn的工作方式。我已经编辑了代码来处理它。现在似乎确实可以工作了，谢谢！不是很重要，但是你介意解释一下为什么我们需要这个额外的super（）调用吗？这种情况是不是特别因为我们在这里使用keras分类器？@0-tree否，因为我们正在重写set_params（）调用，因此我们需要确保调用了BaseEstimator中的原始集合_params（）。然后我们通过再次初始化管道来为Keras执行所需操作。@0-tree对于您建议的编辑，我拒绝了它，因为我们已经在CustomWrapper中，所以我认为不适合再次初始化它。