Neural network 导航超参数_Neural Network_Caffe

Neural network 导航超参数

neural-network

Neural network 导航超参数,neural-network,caffe,Neural Network,Caffe,我只是想知道是否有人能为我提供一个好的来源，让我了解如何根据问题的复杂性来选择解算器的超参数基本上，我了解到，当涉及到设置和修改这些参数时，许多人觉得他们是在“暗中瞎打转”，而基于特定问题/数据复杂性选择参数的系统或基准让我不知所措如果您愿意解释您自己的方法或只是对您的来源提供评论，我们将不胜感激。我认为这是主要参考：另请参阅第5章：由于我们讨论的超参数与反向传播相关，反向传播是一种基于梯度的方法，我相信主要参考是，以及更经典的方法找到超参数的最优值有三种主要方法。前两个问题在我链接

我只是想知道是否有人能为我提供一个好的来源，让我了解如何根据问题的复杂性来选择解算器的超参数

基本上，我了解到，当涉及到设置和修改这些参数时，许多人觉得他们是在“暗中瞎打转”，而基于特定问题/数据复杂性选择参数的系统或基准让我不知所措

如果您愿意解释您自己的方法或只是对您的来源提供评论，我们将不胜感激。

我认为这是主要参考：

另请参阅第5章：

由于我们讨论的超参数与反向传播相关，反向传播是一种基于梯度的方法，我相信主要参考是，以及更经典的方法

找到超参数的最优值有三种主要方法。前两个问题在我链接的第一篇论文中得到了很好的解释

人工搜索。研究者通过反复尝试选择最佳值
自动搜索。研究人员依靠自动化程序来加快搜索速度
贝叶斯优化。你可以找到一个视频演示它

Krizhevsky等人的论文只是选择（好的）超参数的一个例子。它不为他们的选择提供一个方法论或理论基础，例如批次大小、学习速率或重量衰减。如果有理论基础，那就容易多了！据我所知，这一切都是尝试和错误或计算机辅助的尝试和错误。请继续关注Yoshua Bengio的工作，他的实验室正在努力深入学习理论。视频很棒！伟大的理论。我会努力跟上班吉奥的最新消息；很高兴机器学习理论正在被研究和编纂。这些“超参数”之一是

“权重衰减”

。您可以找到一个讨论其角色的线程和一些设置其值的“经验法则”。