Machine learning 用于机器学习的样本与完整数据集的正则化

Machine learning 用于机器学习的样本与完整数据集的正则化,machine-learning,deep-learning,random-forest,regularized,Machine Learning,Deep Learning,Random Forest,Regularized,我最近看了一段视频,解释说对于深度学习,如果你添加更多的数据,你不需要那么多的正则化,这是有意义的 话虽如此,这句话是否适用于“普通”机器学习算法,比如随机森林?如果是这样的话,在搜索算法的最佳超参数时,理论上,你应该拥有尽可能多的数据作为输入数据集,而不仅仅是一个样本。这当然意味着更长的训练时间,因为对于每个超参数的组合,都有X个交叉验证集需要训练,等等 因此,基本上,假设为数据集大小适中的样本找到的参数是用于整个数据集的“最佳”参数,这公平吗?从统计学家的角度来说:这确实取决于估计值的质量。

我最近看了一段视频,解释说对于深度学习,如果你添加更多的数据,你不需要那么多的正则化,这是有意义的

话虽如此,这句话是否适用于“普通”机器学习算法,比如随机森林?如果是这样的话,在搜索算法的最佳超参数时,理论上,你应该拥有尽可能多的数据作为输入数据集,而不仅仅是一个样本。这当然意味着更长的训练时间,因为对于每个超参数的组合,都有X个交叉验证集需要训练,等等


因此,基本上,假设为数据集大小适中的样本找到的参数是用于整个数据集的“最佳”参数,这公平吗?

从统计学家的角度来说:这确实取决于估计值的质量。如果它是无偏的和低方差的,那么样本就可以了。如果方差很大,则需要使用所有可以使用的数据