Machine learning 如何使用fit_参数在Sklearn中使用VotingClassifier进行随机搜索?

Machine learning 如何使用fit_参数在Sklearn中使用VotingClassifier进行随机搜索?,machine-learning,scikit-learn,classification,grid-search,Machine Learning,Scikit Learn,Classification,Grid Search,您好,我正在尝试使用fit_参数(用于GradientBoostingClassifier上的样本权重)在Sklearn中使用VotingClassifier进行随机搜索,因为数据集是不平衡的。有人能给我一些建议和可能的代码示例吗 我当前的非工作代码如下: random_search = RandomizedSearchCV(my_votingClassifier, param_distributions=param_dist,

您好,我正在尝试使用fit_参数(用于GradientBoostingClassifier上的样本权重)在Sklearn中使用VotingClassifier进行随机搜索,因为数据集是不平衡的。有人能给我一些建议和可能的代码示例吗

我当前的非工作代码如下:

random_search = RandomizedSearchCV(my_votingClassifier, param_distributions=param_dist,
                                   n_iter=n_iter_search, n_jobs=-1, fit_params={'sample_weight':y_np_array})
错误:

TypeError: fit() got an unexpected keyword argument 'sample_weight'

考虑到似乎没有一种直接的方法通过
VotingClassifier
传递
sample\u weight
参数,我遇到了这个小“黑客”:

覆盖底部分类器的
fit
方法。例如,如果您使用的是
DecisionTreeClassifier
,则可以通过传递所需的
sample\u weight
参数来覆盖其
fit
方法

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)
现在,在
VotingClassifier
中的分类器集合中,您可以使用自己的
MyDecisionTreeClassifier

完整工作示例:

import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.grid_search import RandomizedSearchCV

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)

clf1 = MyDecisionTreeClassifier()
clf2 = RandomForestClassifier() 
params = {'dt__max_depth': [5, 10],'dt__max_features':[1,2]} 
eclf = VotingClassifier(estimators=[('dt', clf1), ('rf', clf2)], voting='hard')
random_search = RandomizedSearchCV(eclf, param_distributions=params,n_iter=4)
random_search.fit(X, y)
print(random_search.grid_scores_)
print(random_search.best_score_)

考虑到似乎没有一种直接的方法通过
VotingClassifier
传递
sample\u weight
参数,我遇到了这个小“黑客”:

覆盖底部分类器的
fit
方法。例如,如果您使用的是
DecisionTreeClassifier
,则可以通过传递所需的
sample\u weight
参数来覆盖其
fit
方法

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)
现在,在
VotingClassifier
中的分类器集合中,您可以使用自己的
MyDecisionTreeClassifier

完整工作示例:

import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.grid_search import RandomizedSearchCV

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])

class MyDecisionTreeClassifier(DecisionTreeClassifier):
    def fit(self, X , y = None):
        return super(DecisionTreeClassifier, self).fit(X,y,sample_weight=y)

clf1 = MyDecisionTreeClassifier()
clf2 = RandomForestClassifier() 
params = {'dt__max_depth': [5, 10],'dt__max_features':[1,2]} 
eclf = VotingClassifier(estimators=[('dt', clf1), ('rf', clf2)], voting='hard')
random_search = RandomizedSearchCV(eclf, param_distributions=params,n_iter=4)
random_search.fit(X, y)
print(random_search.grid_scores_)
print(random_search.best_score_)

我在上面,但什么也没找到。基本上,您是在
fit_params
中表示分类器的
fit
方法应该使用的参数。但是在您的例子中,分类器是一个
VotingClassifier
实例,它没有
sample\u weight
param。所以,基本上我担心你不能做你在这里假装的事。但仍在搜索是否有黑客将另一个级别传递给真正的分类器,该分类器允许
sample\u weight
参数。我的意思是,现在您有如下内容:
RandomizedSearchCV-->VotingClassifier(sample\u weight)-->EnsembleOfClassifiers
但您希望将此参数转到要用于投票的分类器,类似这样:
随机搜索CV-->VotingClassifiers-->EnsembleOfClassifiers(样本权重)
。希望这能澄清
关键字
错误,但我找不到解决方案,甚至不知道这是否可行。非常感谢Guiem:)是的,我还在谷歌上搜索,但还找不到解决方案。。也许现在的版本不可能。我可能应该直接问Github问题。抱歉,找不到任何东西:(将为您提问,以便我可以跟踪其进度。祝您好运!不,您不需要抱歉:)是的,如果我找到解决方案,我将更新!我在上面,但什么也没找到。基本上,您是在
fit_params
中表示分类器的
fit
方法应该使用的参数。但是在您的例子中,分类器是一个
VotingClassifier
实例,它没有
sample\u weight
param。所以,基本上我担心你不能做你在这里假装的事。但仍在搜索是否有黑客将另一个级别传递给真正的分类器,该分类器允许
sample\u weight
参数。我的意思是,现在您有如下内容:
RandomizedSearchCV-->VotingClassifier(sample\u weight)-->EnsembleOfClassifiers
但您希望将此参数转到要用于投票的分类器,类似这样:
随机搜索CV-->VotingClassifiers-->EnsembleOfClassifiers(样本权重)
。希望这能澄清
关键字
错误,但我找不到解决方案,甚至不知道这是否可行。非常感谢Guiem:)是的,我还在谷歌上搜索,但还找不到解决方案。。也许现在的版本不可能。我可能应该直接问Github问题。抱歉,找不到任何东西:(将为您提问,以便我可以跟踪其进度。祝您好运!不,您不需要抱歉:)是的,如果我找到解决方案,我将更新!我知道您使用的不是DecisionTreeClassifier,而是GradientBoostingClassifier。我只是重复使用了我前面答案中的示例;)但是如果它接受
sample\u weight
param,则只需按类更改树。我知道这不是最漂亮的方式,但我已经为你的问题挣扎了一段时间,我想到了这个问题,我只是想和你分享一下,以防对你有用。干杯哇,这太神奇了:它在我的模型上使用了数据集。我很喜欢这部电影。非常感谢您的帮助,Guiem。实际上,我的数据集出现了一个错误“ValueError:y包含非二进制标签”。。你知道吗?我检查了标签,它们是0和1。不同的是我使用了train_test_split来做X_train,X_test,y_train,y_test。所以随机搜索。适合(X火车,y火车)而不是X和y。不知道,先生。你能打印一张你的“y”字吗?顺便说一句,randomsearch执行交叉验证,因此概念上不需要分割训练和测试数据。当然,除非您希望保持一部分数据“纯净”,而不用于任何可能的培训(即使这是对最佳参数的预先搜索)。再次感谢!y的某个部分是[0.0.0.0.0.0.0.0.1.0.0.0.0.0.1.0.0.0.0.0.],它是np数组。你是对的。但它仍然不能与我的完整y一起工作:(我知道你使用的不是DecisionTreeClassifier,而是GradientBoostingClassifier。我只是重复使用了我之前答案中的示例;)但是如果它接受
样本权重
参数,你只需要按类更改树。我知道这不是最漂亮的方式,但我已经为你的问题挣扎了一段时间,我想到了这个问题,我只是想分享一下,以防万一