Tensorflow 即使可以访问无限的数据,辍学是否也能改善模型?

Tensorflow 即使可以访问无限的数据,辍学是否也能改善模型?,tensorflow,deep-learning,lstm,reinforcement-learning,Tensorflow,Deep Learning,Lstm,Reinforcement Learning,对于何时使用辍学与何时仅仅获取更多数据,是否有明确的指导方针?我以前就知道,如果有足够的数据,人们不会想使用辍学。然而,我最近有了一个模型(4层LSTM处理音频输入),无论我提供了多少数据,该模型在经验上都会收敛到一定的损失,然后在我添加辍学时得到了显著改善 这一现象是否被充分理解?那么,即使有更多(可能无限)可用的数据,也应该始终使用dropout吗 跟进:如果是这样的话,我在RL的论文中没有看到太多关于辍学的提及。我认为这是因为有无限多的可生成数据。这里有没有其他的细微差别来考虑状态空间的分

对于何时使用辍学与何时仅仅获取更多数据,是否有明确的指导方针?我以前就知道,如果有足够的数据,人们不会想使用辍学。然而,我最近有了一个模型(4层LSTM处理音频输入),无论我提供了多少数据,该模型在经验上都会收敛到一定的损失,然后在我添加辍学时得到了显著改善

这一现象是否被充分理解?那么,即使有更多(可能无限)可用的数据,也应该始终使用dropout吗


跟进:如果是这样的话,我在RL的论文中没有看到太多关于辍学的提及。我认为这是因为有无限多的可生成数据。这里有没有其他的细微差别来考虑状态空间的分数,或者训练数据的异质性等等?

< P>没有明确的辍学处方-似乎是确证的。然而,他们写道:

“衰减”会在渐变中引入大量噪波 与标准随机梯度下降法相比。因此,很多 渐变倾向于相互抵消。为了弥补这一点,一个 辍学网络通常应使用10-100倍的学习率 是标准神经网络的最佳选择


所以我天真的猜测是10-100倍的额外训练数据是必要的。另外请注意,使用辍学可以使所需的培训制度的数量增加三倍,这是一个需要记住的额外因素。

辍学没有精确的处方,这似乎证实了这一点。然而,他们写道:

“衰减”会在渐变中引入大量噪波 与标准随机梯度下降法相比。因此,很多 渐变倾向于相互抵消。为了弥补这一点,一个 辍学网络通常应使用10-100倍的学习率 是标准神经网络的最佳选择


所以我天真的猜测是10-100倍的额外训练数据是必要的。另外请注意,使用辍学实际上可以使所需的培训制度数量增加三倍,这是一个需要记住的额外因素。

辍学会降低您的培训精度,以换取测试精度。但是,您在数据上的表现受训练精度的限制。在一个拥有无限多独立分布式数据的世界中,有可能获得与训练集相等的问题性能,因为本质上是相同的数据


然而,在实践中,你永远不会有这么好的训练设备。即使您获得无限的数据,它也不会代表您的分布,也绝对不会是独立的。

辍学会降低您的列车精度,以换取测试精度。但是,您在数据上的表现受训练精度的限制。在一个拥有无限多独立分布式数据的世界中,有可能获得与训练集相等的问题性能,因为本质上是相同的数据


然而,在实践中,你永远不会有这么好的训练设备。即使您获得无限的数据,它也不会代表您的分布,也绝对不会是独立的。

谢谢您的回答@Gavin。你是天真地说,你需要10-100倍的数据才能与辍学获得的正则化相等?或者辍学意味着你需要更多的数据?前者对我来说是有意义的,尽管我特别好奇,除了防止过度拟合(例如,执行紧凑表示、对噪声的鲁棒性等)之外,是否还有其他原因使辍学有用。感谢您的回答@Gavin。你是天真地说,你需要10-100倍的数据才能与辍学获得的正则化相等?或者辍学意味着你需要更多的数据?前者对我来说是有意义的,尽管我特别好奇,除了防止过度拟合(例如,强制执行紧凑表示、对噪声的鲁棒性等)之外,是否还有其他原因使辍学有用感谢@Thomas的回答。非常简洁的权衡描述。听起来你是在说,在一个无限完美的训练集中使用辍学是没有好处的,但是考虑到训练集中可能存在依赖性,它可能仍然有用-是这样吗?谢谢你的回答@Thomas。非常简洁的权衡描述。听起来你是在说,将辍学与无限完美的训练集结合使用并没有什么好处,但考虑到训练集中可能存在依赖性,它可能仍然有用——这是正确的吗?