Machine learning 随机化搜索适当的超参数分布

Machine learning 随机化搜索适当的超参数分布,machine-learning,data-science,Machine Learning,Data Science,在“使用Scikit Learn、Keras和TensorFlow进行机器学习的实践”一书中,我看到下面的分布(倒数和指数)适用于超参数C和gamma。作者(Aurelion)是如何想出这些发行版的?我的意思是如何确定哪个分布适用于随机化搜索CV 参数分布={ '内核':['线性','径向基函数'], ‘C’:互惠的(200000), “伽马”:指数(标度=1.0), }我希望我的问题是对的 这取决于ML模型。随机或网格搜索用于搜索最佳超参数,从而产生最佳预测估计器 例如,考虑下面的代码示例。“

在“使用Scikit Learn、Keras和TensorFlow进行机器学习的实践”一书中,我看到下面的分布(倒数和指数)适用于超参数C和gamma。作者(Aurelion)是如何想出这些发行版的?我的意思是如何确定哪个分布适用于随机化搜索CV

参数分布={ '内核':['线性','径向基函数'], ‘C’:互惠的(200000), “伽马”:指数(标度=1.0),
}我希望我的问题是对的

这取决于ML模型。随机或网格搜索用于搜索最佳超参数,从而产生最佳预测估计器

例如,考虑下面的代码示例。“`rf\u clf``是随机林模型对象。param_distribs将包含具有任意值选择的参数

from scipy.stats import randint

param_distribs = {
        'n_estimators': randint(low=1, high=500),
        'max_depth': randint(low=1, high=10),
        'max_features':randint(low=1,high=10),
        
    }

rf_clf = RandomForestClassifier(random_state=42)
rnd_search_rf = RandomizedSearchCV(rf_clf, param_distributions=param_distribs,
                                n_iter=10, cv=5, scoring='accuracy', random_state=42)
rnd_search_rf.fit(X_train,y_train)
最佳估计器可通过

rnd_search_rf.best_estimator_


我在Github的示例代码中找到了以下注释。

C-->我们用于C的分布看起来非常不同:样本的比例是从给定范围内的均匀分布中选取的,这就是为什么表示样本对数的右图看起来大致恒定的原因。当您不知道目标比例是倒数时,此分布非常有用-:当您不知道超参数的比例应该是什么时,倒数分布非常有用(实际上,正如您在右图中所看到的,在给定范围内,所有比例的可能性相同),然而,当你知道(或多或少)超参数的规模时,指数分布是最好的。

我投票结束这个问题,因为它不是关于在中定义的编程,而是关于ML理论和方法。我在Github上的示例代码中找到以下注释。C-->我们用于C的分布看起来非常不同:样本的比例是从给定范围内的均匀分布中选取的,这就是为什么表示样本对数的右图看起来大致恒定的原因。当您不知道目标量表是什么时,此分布非常有用: