Machine learning 贝叶斯超参数优化

Machine learning 贝叶斯超参数优化,machine-learning,bayesian,tree-structure,Machine Learning,Bayesian,Tree Structure,我对我的lstm超参数做了一些贝叶斯超参数优化实验 我使用一种方法,即使用高斯过程和TPE算法对误差进行建模。 他们工作得很好 我想知道这些策略在哪里被称为“贝叶斯”。 有人能解释一下“贝叶斯”在超参数优化中的含义吗 首先,这意味着它们通常被认为是贝叶斯模型。另一方面,树结构的Parzen估计基本上依赖于Bayes规则:它对p(x | y)和p(y)进行建模,我们可以通过Bayes规则使用这些模型来获得p(y | x) 但不管人们何时提到贝叶斯优化,他们更多的是谈论搜索方法本身。 如果涉及(1)

我对我的lstm超参数做了一些贝叶斯超参数优化实验

我使用一种方法,即使用高斯过程和TPE算法对误差进行建模。 他们工作得很好

我想知道这些策略在哪里被称为“贝叶斯”。 有人能解释一下“贝叶斯”在超参数优化中的含义吗

首先,这意味着它们通常被认为是贝叶斯模型。另一方面,树结构的Parzen估计基本上依赖于Bayes规则:它对
p(x | y)
p(y)
进行建模,我们可以通过Bayes规则使用这些模型来获得
p(y | x)

但不管人们何时提到贝叶斯优化,他们更多的是谈论搜索方法本身。 如果涉及(1)概率先验信念和(2)获取新证据时更新信念的原则性方法,那么它就是贝叶斯的。 例如,GPs形成了先验函数,以及更新后验函数(获取新证据后的新分布)的方法,这正是我们想要的贝叶斯ML

通常所做的是从(超)参数空间上的贝叶斯先验开始(编码关于性能应该是什么的先验信念)。 我们定义了一个采集函数
a(x)
,它帮助我们选择下一步要查看的参数。因为我们有一个概率贝叶斯模型,所以我们有一个不确定性的概念:例如,我们可能知道我们的模型在特定点的预测分布的方差。在远离我们观察的点,方差将很高,而在靠近我们观察的点,方差将很低。换句话说,我们有一个分布
p(y | x)
。这种对不确定性的明确解释是贝叶斯方法的一大好处

采集功能
a(x)
通常必须平衡两个因素:(1)不确定性,因为在不确定的区域可能有我们尚未看到的“隐藏的宝石”;(2)经验证的性能(即,我们应该呆在我们观察到的、我们知道是好的空间区域附近)。因此,我们可以设计
a(x)
以最小化分布中的熵(不确定性),或最大化贝叶斯惊喜,这意味着“选择在观察时引起后验分布最大变化的点”。类似的方法用于强化学习的探索(搜索“贝叶斯惊喜”或“好奇”);任何涉及更新“后验信念”的方法通常被认为是贝叶斯方法

TLDR:它们是贝叶斯模型,因为它们涉及从先验概率开始,然后迭代更新后验概率作为信念。

首先,这意味着它们通常被认为是贝叶斯模型。另一方面,树结构的Parzen估计基本上依赖于Bayes规则:它对
p(x | y)
p(y)
进行建模,我们可以通过Bayes规则使用这些模型来获得
p(y | x)

但不管人们何时提到贝叶斯优化,他们更多的是谈论搜索方法本身。 如果涉及(1)概率先验信念和(2)获取新证据时更新信念的原则性方法,那么它就是贝叶斯的。 例如,GPs形成了先验函数,以及更新后验函数(获取新证据后的新分布)的方法,这正是我们想要的贝叶斯ML

通常所做的是从(超)参数空间上的贝叶斯先验开始(编码关于性能应该是什么的先验信念)。 我们定义了一个采集函数
a(x)
,它帮助我们选择下一步要查看的参数。因为我们有一个概率贝叶斯模型,所以我们有一个不确定性的概念:例如,我们可能知道我们的模型在特定点的预测分布的方差。在远离我们观察的点,方差将很高,而在靠近我们观察的点,方差将很低。换句话说,我们有一个分布
p(y | x)
。这种对不确定性的明确解释是贝叶斯方法的一大好处

采集功能
a(x)
通常必须平衡两个因素:(1)不确定性,因为在不确定的区域可能有我们尚未看到的“隐藏的宝石”;(2)经验证的性能(即,我们应该呆在我们观察到的、我们知道是好的空间区域附近)。因此,我们可以设计
a(x)
以最小化分布中的熵(不确定性),或最大化贝叶斯惊喜,这意味着“选择在观察时引起后验分布最大变化的点”。类似的方法用于强化学习的探索(搜索“贝叶斯惊喜”或“好奇”);任何涉及更新“后验信念”的方法通常被认为是贝叶斯方法

TLDR:它们是贝叶斯的,因为它们涉及从先验概率开始,然后迭代更新后验概率作为信念