Machine learning 我如何知道训练数据对于机器学习来说是足够的

Machine learning 我如何知道训练数据对于机器学习来说是足够的,machine-learning,classification,sample-data,Machine Learning,Classification,Sample Data,例如:如果我想训练分类器(可能是SVM),我需要收集多少样本?是否有测量方法?要知道需要采集多少样本并不容易。但是,您可以按照以下步骤操作: 要解决典型的ML问题,请执行以下操作: 用几个样本构建一个数据集,有多少?这取决于你的问题类型,现在不要花太多时间 将数据集分为训练、交叉、测试和构建模型 现在您已经构建了ML模型,您需要评估它有多好。计算您的测试错误 如果您的测试错误低于预期,请收集新数据并重复步骤1-3,直到达到您满意的测试错误率 如果您的模型没有“高偏差”,此方法将起作用 .不幸的是

例如:如果我想训练分类器(可能是SVM),我需要收集多少样本?是否有测量方法?

要知道需要采集多少样本并不容易。但是,您可以按照以下步骤操作:

要解决典型的ML问题,请执行以下操作:

  • 用几个样本构建一个数据集,有多少?这取决于你的问题类型,现在不要花太多时间
  • 将数据集分为训练、交叉、测试和构建模型
  • 现在您已经构建了ML模型,您需要评估它有多好。计算您的测试错误
  • 如果您的测试错误低于预期,请收集新数据并重复步骤1-3,直到达到您满意的测试错误率
  • 如果您的模型没有“高偏差”,此方法将起作用


    .

    不幸的是,没有简单的方法可以做到这一点

    经验法则是越大越好,但在实际使用中,您必须收集足够数量的数据。通过充分,我是指覆盖大面积的建模空间,因为你认为可以接受。 而且,数量不是一切。测试样本的质量也非常重要,即训练样本不应包含重复样本

    就个人而言,当我没有一次获得所有可能的训练数据时,我会收集一些训练数据,然后训练分类器。然后我分类器的质量是不可接受的,我收集了更多的数据,等等


    这是一门关于评估训练集质量的科学

    这在很大程度上取决于数据的性质和您试图做出的预测,但作为一个简单的规则,首先,您的训练数据应该大约是模型参数数量的10倍。例如,当使用N个特征训练逻辑回归时,尝试从10N个训练实例开始

    有关“10法则”的经验推导,请参见

    我正在使用逻辑回归对审查意见进行分类。在我规范化和向量化数据之后,我有一个数组,其中每列都是一个唯一的字。当您在上面提到“参数”、“功能”和“培训实例”时,这与我应用10倍规则的评论数量和独特词语之间的关系如何?