Neural network 导航超参数

Neural network 导航超参数,neural-network,caffe,Neural Network,Caffe,我只是想知道是否有人能为我提供一个好的来源,让我了解如何根据问题的复杂性来选择解算器的超参数 基本上,我了解到,当涉及到设置和修改这些参数时,许多人觉得他们是在“暗中瞎打转”,而基于特定问题/数据复杂性选择参数的系统或基准让我不知所措 如果您愿意解释您自己的方法或只是对您的来源提供评论,我们将不胜感激。我认为这是主要参考: 另请参阅第5章: 由于我们讨论的超参数与反向传播相关,反向传播是一种基于梯度的方法,我相信主要参考是,以及更经典的方法 找到超参数的最优值有三种主要方法。前两个问题在我链接

我只是想知道是否有人能为我提供一个好的来源,让我了解如何根据问题的复杂性来选择解算器的超参数

基本上,我了解到,当涉及到设置和修改这些参数时,许多人觉得他们是在“暗中瞎打转”,而基于特定问题/数据复杂性选择参数的系统或基准让我不知所措


如果您愿意解释您自己的方法或只是对您的来源提供评论,我们将不胜感激。

我认为这是主要参考:

另请参阅第5章:
由于我们讨论的超参数与反向传播相关,反向传播是一种基于梯度的方法,我相信主要参考是,以及更经典的方法

找到超参数的最优值有三种主要方法。前两个问题在我链接的第一篇论文中得到了很好的解释

  • 人工搜索。研究者通过反复尝试选择最佳值
  • 自动搜索。研究人员依靠自动化程序来加快搜索速度
  • 贝叶斯优化。你可以找到一个视频演示它

Krizhevsky等人的论文只是选择(好的)超参数的一个例子。它不为他们的选择提供一个方法论或理论基础,例如批次大小、学习速率或重量衰减。如果有理论基础,那就容易多了!据我所知,这一切都是尝试和错误或计算机辅助的尝试和错误。请继续关注Yoshua Bengio的工作,他的实验室正在努力深入学习理论。视频很棒!伟大的理论。我会努力跟上班吉奥的最新消息;很高兴机器学习理论正在被研究和编纂。这些“超参数”之一是
“权重衰减”
。您可以找到一个讨论其角色的线程和一些设置其值的“经验法则”。