Machine learning 我如何知道训练数据对于机器学习来说是足够的_Machine Learning_Classification_Sample Data

Machine learning 我如何知道训练数据对于机器学习来说是足够的

machine-learning

Machine learning 我如何知道训练数据对于机器学习来说是足够的,machine-learning,classification,sample-data,Machine Learning,Classification,Sample Data,例如：如果我想训练分类器（可能是SVM），我需要收集多少样本？是否有测量方法？要知道需要采集多少样本并不容易。但是，您可以按照以下步骤操作：要解决典型的ML问题，请执行以下操作：用几个样本构建一个数据集，有多少？这取决于你的问题类型，现在不要花太多时间将数据集分为训练、交叉、测试和构建模型现在您已经构建了ML模型，您需要评估它有多好。计算您的测试错误如果您的测试错误低于预期，请收集新数据并重复步骤1-3，直到达到您满意的测试错误率如果您的模型没有“高偏差”，此方法将起作用 .不幸的是

例如：如果我想训练分类器（可能是SVM），我需要收集多少样本？是否有测量方法？

要知道需要采集多少样本并不容易。但是，您可以按照以下步骤操作：

要解决典型的ML问题，请执行以下操作：

用几个样本构建一个数据集，有多少？这取决于你的问题类型，现在不要花太多时间

将数据集分为训练、交叉、测试和构建模型

现在您已经构建了ML模型，您需要评估它有多好。计算您的测试错误

如果您的测试错误低于预期，请收集新数据并重复步骤1-3，直到达到您满意的测试错误率

如果您的模型没有“高偏差”，此方法将起作用

不幸的是，没有简单的方法可以做到这一点

经验法则是越大越好，但在实际使用中，您必须收集足够数量的数据。通过充分，我是指覆盖大面积的建模空间，因为你认为可以接受。而且，数量不是一切。测试样本的质量也非常重要，即训练样本不应包含重复样本

就个人而言，当我没有一次获得所有可能的训练数据时，我会收集一些训练数据，然后训练分类器。然后我分类器的质量是不可接受的，我收集了更多的数据，等等

这是一门关于评估训练集质量的科学

这在很大程度上取决于数据的性质和您试图做出的预测，但作为一个简单的规则，首先，您的训练数据应该大约是模型参数数量的10倍。例如，当使用N个特征训练逻辑回归时，尝试从10N个训练实例开始

有关“10法则”的经验推导，请参见

我正在使用逻辑回归对审查意见进行分类。在我规范化和向量化数据之后，我有一个数组，其中每列都是一个唯一的字。当您在上面提到“参数”、“功能”和“培训实例”时，这与我应用10倍规则的评论数量和独特词语之间的关系如何？