Machine learning 我们可以在最大熵模型中使用梯度下降法吗？_Machine Learning

Machine learning 我们可以在最大熵模型中使用梯度下降法吗？

machine-learning

Machine learning 我们可以在最大熵模型中使用梯度下降法吗？,machine-learning,Machine Learning,我看到很多实现使用GIS或IIS来训练最大熵模型。我们能用梯度下降法吗？如果我们可以使用它，为什么大多数教程直接告诉GIS或IIS方法，而不显示简单的梯度分布方法来训练最大熵模型？正如我们所知，softmax回归相当于maxent模型，但我从未在softmax中听说过GIS或IIS。为什么？是否有一个玩具代码使用简单的梯度desent方法来训练maxent模型？我认为实现一个玩具代码很容易，推导过程就是简单地计算经验期望和模型期望。最大熵模型是一个定义不清的术语，它可以描述几十种使熵最大化的方法

我看到很多实现使用GIS或IIS来训练最大熵模型。我们能用梯度下降法吗？如果我们可以使用它，为什么大多数教程直接告诉GIS或IIS方法，而不显示简单的梯度分布方法来训练最大熵模型？正如我们所知，softmax回归相当于maxent模型，但我从未在softmax中听说过GIS或IIS。为什么？是否有一个玩具代码使用简单的梯度desent方法来训练maxent模型？我认为实现一个玩具代码很容易，推导过程就是简单地计算经验期望和模型期望。

最大熵模型是一个定义不清的术语，它可以描述几十种使熵最大化的方法。然而，如果你提到最著名的“MaxEnt”，那么它只是逻辑回归，它可以而且通常通过梯度下降来解决。此外，经典的前馈网络在最后一层使用logistic回归成本（因此最大熵成本），并使用SGD进行求解
更一般地说，任何在参数上成本可微的模型都可以使用GD学习。例如，支持向量机可以通过GD学习（尽管通常不是这样，因为我们有更有效的方法利用支持向量机的某些特定特性）
然而，“可以解决”并不意味着“应该”，因为GD是非常通用的工具，它不利用问题的特性（如曲率等）。迭代缩放方法更适合于MaxEnt的特定优化问题，因为我们更了解MaxEnt代价，因为它是可微的且只有一个解

有关许多详细信息，请参阅，并逐步介绍许多可能的方法
谢谢。你的回答对我帮助很大。我只是想知道，大多数逻辑回归教程都会描述梯度下降法，但maxent模型不会。在maxent模型中是否可以使用梯度法使我感到困惑。从你的回答和我的想法来看，我们实际上可以用它建立一个模型，即使有更好的方法。差异还来自NLP和统计优化社区部分独立发展的事实，因此它们有自己的“最爱”。