Machine learning 在机器学习中,您可以做些什么来限制所需训练样本的数量?

Machine learning 在机器学习中,您可以做些什么来限制所需训练样本的数量?,machine-learning,Machine Learning,在许多应用程序中,如果不是完全不可能的话,创建大型训练数据集的成本可能非常高。那么,我们可以采取什么步骤来限制高精度所需的大小呢?好吧,机器学习的一个分支专门用于解决这个问题(标记数据集的成本很高): 老实说,根据我的经验,计算时间相当长,与完全标记的数据集相比,计算结果相形见绌。。。但是最好在一个大的未标记数据集上训练,而不是什么都没有 编辑:首先,我把这个问题理解为“标记数据集很昂贵”,而不是“无论发生什么,数据集的大小都很小” 嗯,除其他外,我想: 调整我的参数。最昂贵的计算,但最好的

在许多应用程序中,如果不是完全不可能的话,创建大型训练数据集的成本可能非常高。那么,我们可以采取什么步骤来限制高精度所需的大小呢?

好吧,机器学习的一个分支专门用于解决这个问题(标记数据集的成本很高):

老实说,根据我的经验,计算时间相当长,与完全标记的数据集相比,计算结果相形见绌。。。但是最好在一个大的未标记数据集上训练,而不是什么都没有


编辑:首先,我把这个问题理解为“标记数据集很昂贵”,而不是“无论发生什么,数据集的大小都很小”

嗯,除其他外,我想:

  • 调整我的参数。最昂贵的计算,但最好的

  • 选择收敛速度较快的算法。(您需要一个比较表,我现在没有)

  • 需要非常好的泛化特性。在这种情况下,弱分类器的线性组合非常好。kNN(k近邻)非常糟糕

  • 偏向“泛化”参数。大多数算法都在泛化(规则性)和质量(分类器对训练集是否进行了很好的分类)之间进行折衷。如果数据集很小,则应将算法偏向于泛化(在使用交叉验证调整参数之后)


谢谢您的回答。我更多地是从设计学习方法和模型的角度来考虑这个问题,以应对较小的数据集规模,但你的回答对这个问题提供了一些有趣的启示。哦,对不起,我的错。我已经编辑了我的帖子,但由于我无法根据经验(以前从未遇到过这个问题)进行交流,所以我给出了一些提示,但我不能保证!