Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/machine-learning/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 我们可以在最大熵模型中使用梯度下降法吗?_Machine Learning - Fatal编程技术网

Machine learning 我们可以在最大熵模型中使用梯度下降法吗?

Machine learning 我们可以在最大熵模型中使用梯度下降法吗?,machine-learning,Machine Learning,我看到很多实现使用GIS或IIS来训练最大熵模型。我们能用梯度下降法吗?如果我们可以使用它,为什么大多数教程直接告诉GIS或IIS方法,而不显示简单的梯度分布方法来训练最大熵模型?正如我们所知,softmax回归相当于maxent模型,但我从未在softmax中听说过GIS或IIS。为什么?是否有一个玩具代码使用简单的梯度desent方法来训练maxent模型?我认为实现一个玩具代码很容易,推导过程就是简单地计算经验期望和模型期望。最大熵模型是一个定义不清的术语,它可以描述几十种使熵最大化的方法

我看到很多实现使用GIS或IIS来训练最大熵模型。我们能用梯度下降法吗?如果我们可以使用它,为什么大多数教程直接告诉GIS或IIS方法,而不显示简单的梯度分布方法来训练最大熵模型?正如我们所知,softmax回归相当于maxent模型,但我从未在softmax中听说过GIS或IIS。为什么?是否有一个玩具代码使用简单的梯度desent方法来训练maxent模型?我认为实现一个玩具代码很容易,推导过程就是简单地计算经验期望和模型期望。

最大熵模型是一个定义不清的术语,它可以描述几十种使熵最大化的方法。然而,如果你提到最著名的“MaxEnt”,那么它只是逻辑回归,它可以而且通常通过梯度下降来解决。此外,经典的前馈网络在最后一层使用logistic回归成本(因此最大熵成本),并使用SGD进行求解

更一般地说,任何在参数上成本可微的模型都可以使用GD学习。例如,支持向量机可以通过GD学习(尽管通常不是这样,因为我们有更有效的方法利用支持向量机的某些特定特性)

然而,“可以解决”并不意味着“应该”,因为GD是非常通用的工具,它不利用问题的特性(如曲率等)。迭代缩放方法更适合于MaxEnt的特定优化问题,因为我们更了解MaxEnt代价,因为它是可微的且只有一个解


有关许多详细信息,请参阅,并逐步介绍许多可能的方法

谢谢。你的回答对我帮助很大。我只是想知道,大多数逻辑回归教程都会描述梯度下降法,但maxent模型不会。在maxent模型中是否可以使用梯度法使我感到困惑。从你的回答和我的想法来看,我们实际上可以用它建立一个模型,即使有更好的方法。差异还来自NLP和统计优化社区部分独立发展的事实,因此它们有自己的“最爱”。