Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/330.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 机器学习中的数据分割_Python_Dataset - Fatal编程技术网

Python 机器学习中的数据分割

Python 机器学习中的数据分割,python,dataset,Python,Dataset,在机器学习中,为什么我们需要分割数据?为什么我们要将测试大小设置为0.3或0.2(通常)?我们能把尺寸设为1吗?为什么85%的准确率被认为是好的呢 另外,我是一个初学者,请对我放松点^ ^那么我们为什么要分割数据呢?我们需要一些方法来确定分类器的性能。一种方法是使用相同的数据进行培训和测试。但是,如果我们这样做,我们就无法判断我们的模型是否过度拟合,因为我们的模型只是记住了训练集的特征,而不是学习一些潜在的表示。取而代之的是,我们提供了一些我们的模型从未见过的数据,这些数据可以用来进行评估。有时

在机器学习中,为什么我们需要分割数据?为什么我们要将测试大小设置为0.3或0.2(通常)?我们能把尺寸设为1吗?为什么85%的准确率被认为是好的呢


另外,我是一个初学者,请对我放松点^ ^

那么我们为什么要分割数据呢?我们需要一些方法来确定分类器的性能。一种方法是使用相同的数据进行培训和测试。但是,如果我们这样做,我们就无法判断我们的模型是否过度拟合,因为我们的模型只是记住了训练集的特征,而不是学习一些潜在的表示。取而代之的是,我们提供了一些我们的模型从未见过的数据,这些数据可以用来进行评估。有时我们甚至将数据分为三个部分——培训、验证(在我们仍在选择模型参数时的测试集)和测试(针对优化模型)

测试大小只是测试集中数据的一部分。如果您将测试大小设置为1,那么这就是您的整个数据集,并且没有任何内容可供训练


为什么85%的准确率好?只是一个启发。假设你在做一个分类任务,选择最频繁的类至少能给你50%的准确率。如果一个模型有100%的准确度,我们可能会怀疑,因为人类做得不好,而且你的训练数据可能不是100%准确,所以100%的准确度可能表明出了问题,比如模型过拟合。

这是一个非常基本的问题。我建议你在提问之前先学习一些课程,因为每一门好的机器学习课程都会解释这一点。我推荐Andrew Ng的课程,你可以在Coursera上找到,但视频也在youtube上

为了更直接地回答您的问题,您可以使用训练集来教您的模型如何对数据进行分类,并使用“dev”或“test”集测试您的模型,以查看它对新的未看到的数据的学习情况

把它想象成教一个孩子加法,告诉他们1+4=5,5+3=8,2+7=9。如果你问孩子“1+4是什么”,你想知道他们是否学会了加法,而不仅仅是记住了你给出的例子

本视频特别回答了使用何种尺寸的测试/列车组的问题。

非常感谢您!是的,我目前正在学习这些,我仍然感到困惑,但不再是了。非常感谢。