Python 机器学习中的数据分割_Python_Dataset

Python 机器学习中的数据分割

python

Python 机器学习中的数据分割,python,dataset,Python,Dataset,在机器学习中，为什么我们需要分割数据？为什么我们要将测试大小设置为0.3或0.2（通常）？我们能把尺寸设为1吗？为什么85%的准确率被认为是好的呢另外，我是一个初学者，请对我放松点^ ^那么我们为什么要分割数据呢？我们需要一些方法来确定分类器的性能。一种方法是使用相同的数据进行培训和测试。但是，如果我们这样做，我们就无法判断我们的模型是否过度拟合，因为我们的模型只是记住了训练集的特征，而不是学习一些潜在的表示。取而代之的是，我们提供了一些我们的模型从未见过的数据，这些数据可以用来进行评估。有时

在机器学习中，为什么我们需要分割数据？为什么我们要将测试大小设置为0.3或0.2（通常）？我们能把尺寸设为1吗？为什么85%的准确率被认为是好的呢

另外，我是一个初学者，请对我放松点^ ^

那么我们为什么要分割数据呢？我们需要一些方法来确定分类器的性能。一种方法是使用相同的数据进行培训和测试。但是，如果我们这样做，我们就无法判断我们的模型是否过度拟合，因为我们的模型只是记住了训练集的特征，而不是学习一些潜在的表示。取而代之的是，我们提供了一些我们的模型从未见过的数据，这些数据可以用来进行评估。有时我们甚至将数据分为三个部分——培训、验证（在我们仍在选择模型参数时的测试集）和测试（针对优化模型）

测试大小只是测试集中数据的一部分。如果您将测试大小设置为1，那么这就是您的整个数据集，并且没有任何内容可供训练

为什么85%的准确率好？只是一个启发。假设你在做一个分类任务，选择最频繁的类至少能给你50%的准确率。如果一个模型有100%的准确度，我们可能会怀疑，因为人类做得不好，而且你的训练数据可能不是100%准确，所以100%的准确度可能表明出了问题，比如模型过拟合。

这是一个非常基本的问题。我建议你在提问之前先学习一些课程，因为每一门好的机器学习课程都会解释这一点。我推荐Andrew Ng的课程，你可以在Coursera上找到，但视频也在youtube上

为了更直接地回答您的问题，您可以使用训练集来教您的模型如何对数据进行分类，并使用“dev”或“test”集测试您的模型，以查看它对新的未看到的数据的学习情况

把它想象成教一个孩子加法，告诉他们1+4=5，5+3=8，2+7=9。如果你问孩子“1+4是什么”，你想知道他们是否学会了加法，而不仅仅是记住了你给出的例子

本视频特别回答了使用何种尺寸的测试/列车组的问题。

非常感谢您！是的，我目前正在学习这些，我仍然感到困惑，但不再是了。非常感谢。