Machine learning 在机器学习中，您可以做些什么来限制所需训练样本的数量？_Machine Learning

Machine learning 在机器学习中，您可以做些什么来限制所需训练样本的数量？

machine-learning

Machine learning 在机器学习中，您可以做些什么来限制所需训练样本的数量？,machine-learning,Machine Learning,在许多应用程序中，如果不是完全不可能的话，创建大型训练数据集的成本可能非常高。那么，我们可以采取什么步骤来限制高精度所需的大小呢？好吧，机器学习的一个分支专门用于解决这个问题（标记数据集的成本很高）：老实说，根据我的经验，计算时间相当长，与完全标记的数据集相比，计算结果相形见绌。。。但是最好在一个大的未标记数据集上训练，而不是什么都没有编辑：首先，我把这个问题理解为“标记数据集很昂贵”，而不是“无论发生什么，数据集的大小都很小” 嗯，除其他外，我想：调整我的参数。最昂贵的计算，但最好的

在许多应用程序中，如果不是完全不可能的话，创建大型训练数据集的成本可能非常高。那么，我们可以采取什么步骤来限制高精度所需的大小呢？

好吧，机器学习的一个分支专门用于解决这个问题（标记数据集的成本很高）：

老实说，根据我的经验，计算时间相当长，与完全标记的数据集相比，计算结果相形见绌。。。但是最好在一个大的未标记数据集上训练，而不是什么都没有

编辑：首先，我把这个问题理解为“标记数据集很昂贵”，而不是“无论发生什么，数据集的大小都很小”

嗯，除其他外，我想：

调整我的参数。最昂贵的计算，但最好的
选择收敛速度较快的算法。（您需要一个比较表，我现在没有）
需要非常好的泛化特性。在这种情况下，弱分类器的线性组合非常好。kNN（k近邻）非常糟糕
偏向“泛化”参数。大多数算法都在泛化（规则性）和质量（分类器对训练集是否进行了很好的分类）之间进行折衷。如果数据集很小，则应将算法偏向于泛化（在使用交叉验证调整参数之后）

谢谢您的回答。我更多地是从设计学习方法和模型的角度来考虑这个问题，以应对较小的数据集规模，但你的回答对这个问题提供了一些有趣的启示。哦，对不起，我的错。我已经编辑了我的帖子，但由于我无法根据经验（以前从未遇到过这个问题）进行交流，所以我给出了一些提示，但我不能保证！