Machine learning 如何使用fit_参数在Sklearn中使用VotingClassifier进行随机搜索？_Machine Learning_Scikit Learn_Classification_Grid Search

Machine learning 如何使用fit_参数在Sklearn中使用VotingClassifier进行随机搜索？

machine-learning scikit-learn

Machine learning 如何使用fit_参数在Sklearn中使用VotingClassifier进行随机搜索？,machine-learning,scikit-learn,classification,grid-search,Machine Learning,Scikit Learn,Classification,Grid Search,您好，我正在尝试使用fit_参数（用于GradientBoostingClassifier上的样本权重）在Sklearn中使用VotingClassifier进行随机搜索，因为数据集是不平衡的。有人能给我一些建议和可能的代码示例吗我当前的非工作代码如下： random_search = RandomizedSearchCV(my_votingClassifier, param_distributions=param_dist,

您好，我正在尝试使用fit_参数（用于GradientBoostingClassifier上的样本权重）在Sklearn中使用VotingClassifier进行随机搜索，因为数据集是不平衡的。有人能给我一些建议和可能的代码示例吗

我当前的非工作代码如下：

random_search = RandomizedSearchCV(my_votingClassifier, param_distributions=param_dist,
                                   n_iter=n_iter_search, n_jobs=-1, fit_params={'sample_weight':y_np_array})

错误：

TypeError: fit() got an unexpected keyword argument 'sample_weight'

考虑到似乎没有一种直接的方法通过

VotingClassifier

传递

sample\u weight

参数，我遇到了这个小“黑客”：

覆盖底部分类器的

fit

方法。例如，如果您使用的是

DecisionTreeClassifier

，则可以通过传递所需的

sample\u weight

参数来覆盖其

fit

方法

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)

现在，在

VotingClassifier

中的分类器集合中，您可以使用自己的

MyDecisionTreeClassifier

完整工作示例：

import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.grid_search import RandomizedSearchCV

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)

clf1 = MyDecisionTreeClassifier()
clf2 = RandomForestClassifier() 
params = {'dt__max_depth': [5, 10],'dt__max_features':[1,2]} 
eclf = VotingClassifier(estimators=[('dt', clf1), ('rf', clf2)], voting='hard')
random_search = RandomizedSearchCV(eclf, param_distributions=params,n_iter=4)
random_search.fit(X, y)
print(random_search.grid_scores_)
print(random_search.best_score_)

考虑到似乎没有一种直接的方法通过

VotingClassifier

传递

sample\u weight

参数，我遇到了这个小“黑客”：

覆盖底部分类器的

fit

方法。例如，如果您使用的是

DecisionTreeClassifier

，则可以通过传递所需的

sample\u weight

参数来覆盖其

fit

方法

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)

现在，在

VotingClassifier

中的分类器集合中，您可以使用自己的

MyDecisionTreeClassifier

完整工作示例：

import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.grid_search import RandomizedSearchCV

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)

clf1 = MyDecisionTreeClassifier()
clf2 = RandomForestClassifier() 
params = {'dt__max_depth': [5, 10],'dt__max_features':[1,2]} 
eclf = VotingClassifier(estimators=[('dt', clf1), ('rf', clf2)], voting='hard')
random_search = RandomizedSearchCV(eclf, param_distributions=params,n_iter=4)
random_search.fit(X, y)
print(random_search.grid_scores_)
print(random_search.best_score_)

我在上面，但什么也没找到。基本上，您是在

fit_params

中表示分类器的

fit

方法应该使用的参数。但是在您的例子中，分类器是一个

VotingClassifier

实例，它没有

sample\u weight

param。所以，基本上我担心你不能做你在这里假装的事。但仍在搜索是否有黑客将另一个级别传递给真正的分类器，该分类器允许

sample\u weight

参数。我的意思是，现在您有如下内容：

RandomizedSearchCV-->VotingClassifier（sample\u weight）-->EnsembleOfClassifiers

但您希望将此参数转到要用于投票的分类器，类似这样：

随机搜索CV-->VotingClassifiers-->EnsembleOfClassifiers（样本权重）

。希望这能澄清

关键字

错误，但我找不到解决方案，甚至不知道这是否可行。非常感谢Guiem:）是的，我还在谷歌上搜索，但还找不到解决方案。。也许现在的版本不可能。我可能应该直接问Github问题。抱歉，找不到任何东西：（将为您提问，以便我可以跟踪其进度。祝您好运！不，您不需要抱歉：）是的，如果我找到解决方案，我将更新！我在上面，但什么也没找到。基本上，您是在

fit_params

中表示分类器的

fit

方法应该使用的参数。但是在您的例子中，分类器是一个

VotingClassifier

实例，它没有

sample\u weight

param。所以，基本上我担心你不能做你在这里假装的事。但仍在搜索是否有黑客将另一个级别传递给真正的分类器，该分类器允许

sample\u weight

参数。我的意思是，现在您有如下内容：

RandomizedSearchCV-->VotingClassifier（sample\u weight）-->EnsembleOfClassifiers

但您希望将此参数转到要用于投票的分类器，类似这样：

随机搜索CV-->VotingClassifiers-->EnsembleOfClassifiers（样本权重）

。希望这能澄清

关键字

错误，但我找不到解决方案，甚至不知道这是否可行。非常感谢Guiem:）是的，我还在谷歌上搜索，但还找不到解决方案。。也许现在的版本不可能。我可能应该直接问Github问题。抱歉，找不到任何东西：（将为您提问，以便我可以跟踪其进度。祝您好运！不，您不需要抱歉：）是的，如果我找到解决方案，我将更新！我知道您使用的不是DecisionTreeClassifier，而是GradientBoostingClassifier。我只是重复使用了我前面答案中的示例；）但是如果它接受

sample\u weight

param，则只需按类更改树。我知道这不是最漂亮的方式，但我已经为你的问题挣扎了一段时间，我想到了这个问题，我只是想和你分享一下，以防对你有用。干杯哇，这太神奇了：它在我的模型上使用了数据集。我很喜欢这部电影。非常感谢您的帮助，Guiem。实际上，我的数据集出现了一个错误“ValueError:y包含非二进制标签”。。你知道吗？我检查了标签，它们是0和1。不同的是我使用了train_test_split来做X_train，X_test，y_train，y_test。所以随机搜索。适合（X火车，y火车）而不是X和y。不知道，先生。你能打印一张你的“y”字吗？顺便说一句，randomsearch执行交叉验证，因此概念上不需要分割训练和测试数据。当然，除非您希望保持一部分数据“纯净”，而不用于任何可能的培训（即使这是对最佳参数的预先搜索）。再次感谢！y的某个部分是[0.0.0.0.0.0.0.0.1.0.0.0.0.0.1.0.0.0.0.0.]，它是np数组。你是对的。但它仍然不能与我的完整y一起工作：（我知道你使用的不是DecisionTreeClassifier，而是GradientBoostingClassifier。我只是重复使用了我之前答案中的示例；）但是如果它接受

样本权重

参数，你只需要按类更改树。我知道这不是最漂亮的方式，但我已经为你的问题挣扎了一段时间，我想到了这个问题，我只是想分享一下，以防万一