Machine learning 在机器学习中,您可以做些什么来限制所需训练样本的数量?
在许多应用程序中,如果不是完全不可能的话,创建大型训练数据集的成本可能非常高。那么,我们可以采取什么步骤来限制高精度所需的大小呢?好吧,机器学习的一个分支专门用于解决这个问题(标记数据集的成本很高): 老实说,根据我的经验,计算时间相当长,与完全标记的数据集相比,计算结果相形见绌。。。但是最好在一个大的未标记数据集上训练,而不是什么都没有Machine learning 在机器学习中,您可以做些什么来限制所需训练样本的数量?,machine-learning,Machine Learning,在许多应用程序中,如果不是完全不可能的话,创建大型训练数据集的成本可能非常高。那么,我们可以采取什么步骤来限制高精度所需的大小呢?好吧,机器学习的一个分支专门用于解决这个问题(标记数据集的成本很高): 老实说,根据我的经验,计算时间相当长,与完全标记的数据集相比,计算结果相形见绌。。。但是最好在一个大的未标记数据集上训练,而不是什么都没有 编辑:首先,我把这个问题理解为“标记数据集很昂贵”,而不是“无论发生什么,数据集的大小都很小” 嗯,除其他外,我想: 调整我的参数。最昂贵的计算,但最好的
编辑:首先,我把这个问题理解为“标记数据集很昂贵”,而不是“无论发生什么,数据集的大小都很小” 嗯,除其他外,我想:
- 调整我的参数。最昂贵的计算,但最好的
- 选择收敛速度较快的算法。(您需要一个比较表,我现在没有)
- 需要非常好的泛化特性。在这种情况下,弱分类器的线性组合非常好。kNN(k近邻)非常糟糕
- 偏向“泛化”参数。大多数算法都在泛化(规则性)和质量(分类器对训练集是否进行了很好的分类)之间进行折衷。如果数据集很小,则应将算法偏向于泛化(在使用交叉验证调整参数之后)