Machine learning 用于机器学习的样本与完整数据集的正则化_Machine Learning_Deep Learning_Random Forest_Regularized

Machine learning 用于机器学习的样本与完整数据集的正则化

machine-learning deep-learning

Machine learning 用于机器学习的样本与完整数据集的正则化,machine-learning,deep-learning,random-forest,regularized,Machine Learning,Deep Learning,Random Forest,Regularized,我最近看了一段视频，解释说对于深度学习，如果你添加更多的数据，你不需要那么多的正则化，这是有意义的话虽如此，这句话是否适用于“普通”机器学习算法，比如随机森林？如果是这样的话，在搜索算法的最佳超参数时，理论上，你应该拥有尽可能多的数据作为输入数据集，而不仅仅是一个样本。这当然意味着更长的训练时间，因为对于每个超参数的组合，都有X个交叉验证集需要训练，等等因此，基本上，假设为数据集大小适中的样本找到的参数是用于整个数据集的“最佳”参数，这公平吗？从统计学家的角度来说：这确实取决于估计值的质量。

我最近看了一段视频，解释说对于深度学习，如果你添加更多的数据，你不需要那么多的正则化，这是有意义的

话虽如此，这句话是否适用于“普通”机器学习算法，比如随机森林？如果是这样的话，在搜索算法的最佳超参数时，理论上，你应该拥有尽可能多的数据作为输入数据集，而不仅仅是一个样本。这当然意味着更长的训练时间，因为对于每个超参数的组合，都有X个交叉验证集需要训练，等等

因此，基本上，假设为数据集大小适中的样本找到的参数是用于整个数据集的“最佳”参数，这公平吗？

从统计学家的角度来说：这确实取决于估计值的质量。如果它是无偏的和低方差的，那么样本就可以了。如果方差很大，则需要使用所有可以使用的数据