Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/78.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
删除R中异常值的替代方法_R_Dataframe_Cluster Analysis_K Means_Outliers - Fatal编程技术网

删除R中异常值的替代方法

删除R中异常值的替代方法,r,dataframe,cluster-analysis,k-means,outliers,R,Dataframe,Cluster Analysis,K Means,Outliers,我希望在k意味着聚类之后删除聚类中的异常数据点,并在R中使用这种方法:- 1.)绘制图表:- 绘图(排序(df[[1]]$var)) 绘图(排序(df[[2]]$var)) 2.)从图中可以看到异常值(在我的例子中是极端值)数据点 rownames(df[[1]])您需要包括一个简短的、可重复的示例,显示您想要什么和您尝试了什么。也就是说,如果我猜对了你想要什么,下面可能会给你一些提示。请注意,可以通过CI或其他方式获取最小/最大切割值 a <- 1:40 b <- a[a %in

我希望在k意味着聚类之后删除聚类中的异常数据点,并在R中使用这种方法:-

1.)绘制图表:-

绘图(排序(df[[1]]$var))
绘图(排序(df[[2]]$var))
2.)从图中可以看到异常值(在我的例子中是极端值)数据点


rownames(df[[1]])您需要包括一个简短的、可重复的示例,显示您想要什么和您尝试了什么。也就是说,如果我猜对了你想要什么,下面可能会给你一些提示。请注意,可以通过CI或其他方式获取最小/最大切割值

a <- 1:40
b <- a[a %in% 4:35] # Define outliers as <= 4 or >= 35
b
length(b) # Note there are no NAs using this approach

<代码> >请考虑这可能有帮助:看看<代码> Box图。STATS <代码>,它将标识向量中的统计离群值。我只想要第一个n(n从图中得到)。按要删除的变量
var
降序排序的列表行。我已经给出了我要遵循的方法。我想知道这是一种有效的方法。只有在绘制图表后,我才能知道我的异常值。从那里我可以识别3个异常值点,我转到df并按
var
的desc顺序排序,然后删除前3行。必须计算更大的切点,而不是目测。R有多种计算方法,具体取决于您的具体分析。“极端”是一个需要量化的统计概念,以使任何统计意义。它不能以草率、直观的方式完成。因此,
绘图(sort(df[[1]]$var))
将给出
排序(df[[1]$var
vs索引。它将偏离主趋势(或远离其他数据点)的点定位。这些是我想要删除的。当我在df中按降序排序时,我会了解图表中显示的数据,从而删除它们。