Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/359.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 去除多特征回归问题中的异常值_Python_Regression - Fatal编程技术网

Python 去除多特征回归问题中的异常值

Python 去除多特征回归问题中的异常值,python,regression,Python,Regression,我有一个回归问题,有1个目标和10个特性。当我通过方框图查看每个特征的异常值时,它们有不同数量的异常值。在删除异常值时,是否还需要删除与这些异常值关联的目标值 我的意思是,比方说:对于#1特性,我有12个异常值,我用12个目标值删除了它们。然后,对于#2特性,我有23个异常值,我用23个目标值删除了它们,以此类推。过程是这样的,或者我应该如何继续?我想象您的数据的每一行都包含一个ID、目标值和10个特征值,每个特征中有一个回答我们的问题:如果要删除异常值,必须删除整个观察值/行——您分类为异常值

我有一个回归问题,有1个目标和10个特性。当我通过方框图查看每个特征的异常值时,它们有不同数量的异常值。在删除异常值时,是否还需要删除与这些异常值关联的目标值


我的意思是,比方说:对于#1特性,我有12个异常值,我用12个目标值删除了它们。然后,对于#2特性,我有23个异常值,我用23个目标值删除了它们,以此类推。过程是这样的,或者我应该如何继续?

我想象您的数据的每一行都包含一个ID、目标值和10个特征值,每个特征中有一个回答我们的问题:如果要删除异常值,必须删除整个观察值/行——您分类为异常值的值、相应的目标值以及所有其他9个对应的特征值。因此,您必须过滤每一行,以使特征项_i小于您定义为异常值的阈值_i

原因是多线性回归计算一个特征增量变化对目标的影响,假设所有其他9个特征为常数。在这样的模型中(假设您使用的是OLS),删除单个特征值而不删除目标和此观测的其他特征根本不起作用


然而,我会谨慎地删除异常值。我不知道你的样本大小和你认为的离群值,这将有助于更多地了解你的研究问题、数据和方法。

数据大小是585。我现在正在尝试局部异常值因子方法,但我将检查其他方法是否存在异常值。事实上,我已经尝试过不同的回归模型,现在我想看看剔除异常值对模型性能的影响。我可以问一下,当你提到异常值时,你是指特征中的异常值吗?我认为异常值通常指的是观察结果/回答。想澄清一下删除特征异常值的原因吗?是的,我指的是仅仅创建方框图之后特征中的异常值。