Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/292.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/blackberry/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 过采样会导致模型过拟合吗?_Python_Model_Classification_Oversampling - Fatal编程技术网

Python 过采样会导致模型过拟合吗?

Python 过采样会导致模型过拟合吗?,python,model,classification,oversampling,Python,Model,Classification,Oversampling,目标属性分布当前如下所示: mydata.groupBy("Churn").count().show() +-----+-----+ |Churn|count| +-----+-----+ | 1| 483| | 0| 2850| +-----+-----+ 我的问题是: 过采样方法,如:manully、smote、adasyn是否将使用可用数据创建新的数据点 如果我们使用这些数据来训练分类模型,它会不会是一个过度拟合的模型 我的问题是任何过采样方法(manully、smo

目标属性分布当前如下所示:

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+
我的问题是:

  • 过采样方法,如:manully、smote、adasyn是否将使用可用数据创建新的数据点

  • 如果我们使用这些数据来训练分类模型,它会不会是一个过度拟合的模型

我的问题是任何过采样方法(manully、smote、adasyn)都将使用可用数据创建新的数据点

  • 数据不平衡问题主要分三步处理:
  • 对少数民族阶级进行过度抽样
  • 在大多数班级中
  • 综合新的少数民族阶级
SMOTE(合成少数超采样技术)将进入第三步。这是从数据集中创建新少数类的过程

SMOTE的流程如下所述:

所以,这比过度采样要聪明一点

如果我们使用这些数据来建立一个分类模型,它不是一个过度拟合的模型吗

正确的答案可能是。试试看

这就是为什么我们使用测试集和交叉验证来尝试理解模型是否适合使用看不见的数据