Machine learning 贝叶斯超参数优化_Machine Learning_Bayesian_Tree Structure

Machine learning 贝叶斯超参数优化

machine-learning

Machine learning 贝叶斯超参数优化,machine-learning,bayesian,tree-structure,Machine Learning,Bayesian,Tree Structure,我对我的lstm超参数做了一些贝叶斯超参数优化实验我使用一种方法，即使用高斯过程和TPE算法对误差进行建模。他们工作得很好我想知道这些策略在哪里被称为“贝叶斯”。有人能解释一下“贝叶斯”在超参数优化中的含义吗首先，这意味着它们通常被认为是贝叶斯模型。另一方面，树结构的Parzen估计基本上依赖于Bayes规则：它对p（x | y）和p（y）进行建模，我们可以通过Bayes规则使用这些模型来获得p（y | x）但不管人们何时提到贝叶斯优化，他们更多的是谈论搜索方法本身。如果涉及（1）

我对我的lstm超参数做了一些贝叶斯超参数优化实验

我使用一种方法，即使用高斯过程和TPE算法对误差进行建模。他们工作得很好

我想知道这些策略在哪里被称为“贝叶斯”。有人能解释一下“贝叶斯”在超参数优化中的含义吗

首先，这意味着它们通常被认为是贝叶斯模型。另一方面，树结构的Parzen估计基本上依赖于Bayes规则：它对

p（x | y）

和

p（y）

进行建模，我们可以通过Bayes规则使用这些模型来获得

p（y | x）

但不管人们何时提到贝叶斯优化，他们更多的是谈论搜索方法本身。如果涉及（1）概率先验信念和（2）获取新证据时更新信念的原则性方法，那么它就是贝叶斯的。例如，GPs形成了先验函数，以及更新后验函数（获取新证据后的新分布）的方法，这正是我们想要的贝叶斯ML

通常所做的是从（超）参数空间上的贝叶斯先验开始（编码关于性能应该是什么的先验信念）。我们定义了一个采集函数

a（x）

，它帮助我们选择下一步要查看的参数。因为我们有一个概率贝叶斯模型，所以我们有一个不确定性的概念：例如，我们可能知道我们的模型在特定点的预测分布的方差。在远离我们观察的点，方差将很高，而在靠近我们观察的点，方差将很低。换句话说，我们有一个分布

p（y | x）

。这种对不确定性的明确解释是贝叶斯方法的一大好处

采集功能

a（x）

通常必须平衡两个因素：（1）不确定性，因为在不确定的区域可能有我们尚未看到的“隐藏的宝石”；（2）经验证的性能（即，我们应该呆在我们观察到的、我们知道是好的空间区域附近）。因此，我们可以设计

a（x）

以最小化分布中的熵（不确定性），或最大化贝叶斯惊喜，这意味着“选择在观察时引起后验分布最大变化的点”。类似的方法用于强化学习的探索（搜索“贝叶斯惊喜”或“好奇”）；任何涉及更新“后验信念”的方法通常被认为是贝叶斯方法

TLDR：它们是贝叶斯模型，因为它们涉及从先验概率开始，然后迭代更新后验概率作为信念。

首先，这意味着它们通常被认为是贝叶斯模型。另一方面，树结构的Parzen估计基本上依赖于Bayes规则：它对

p（x | y）

和

p（y）

进行建模，我们可以通过Bayes规则使用这些模型来获得

p（y | x）

通常所做的是从（超）参数空间上的贝叶斯先验开始（编码关于性能应该是什么的先验信念）。我们定义了一个采集函数

a（x）

p（y | x）

。这种对不确定性的明确解释是贝叶斯方法的一大好处

采集功能

a（x）

a（x）

TLDR：它们是贝叶斯的，因为它们涉及从先验概率开始，然后迭代更新后验概率作为信念