删除R中异常值的替代方法_R_Dataframe_Cluster Analysis_K Means_Outliers

删除R中异常值的替代方法

r dataframe

删除R中异常值的替代方法,r,dataframe,cluster-analysis,k-means,outliers,R,Dataframe,Cluster Analysis,K Means,Outliers,我希望在k意味着聚类之后删除聚类中的异常数据点，并在R中使用这种方法：- 1.）绘制图表：- 绘图（排序（df[[1]]$var））绘图（排序（df[[2]]$var）） 2.）从图中可以看到异常值（在我的例子中是极端值）数据点 rownames（df[[1]]）您需要包括一个简短的、可重复的示例，显示您想要什么和您尝试了什么。也就是说，如果我猜对了你想要什么，下面可能会给你一些提示。请注意，可以通过CI或其他方式获取最小/最大切割值 a <- 1:40 b <- a[a %in

我希望在k意味着聚类之后删除聚类中的异常数据点，并在R中使用这种方法：-

1.）绘制图表：-

绘图（排序（df[[1]]$var））
绘图（排序（df[[2]]$var））

2.）从图中可以看到异常值（在我的例子中是极端值）数据点

rownames（df[[1]]）您需要包括一个简短的、可重复的示例，显示您想要什么和您尝试了什么。也就是说，如果我猜对了你想要什么，下面可能会给你一些提示。请注意，可以通过CI或其他方式获取最小/最大切割值
a <- 1:40
b <- a[a %in% 4:35] # Define outliers as <= 4 or >= 35
b
length(b) # Note there are no NAs using this approach

<代码> >请考虑这可能有帮助：看看<代码> Box图。STATS <代码>，它将标识向量中的统计离群值。我只想要第一个n（n从图中得到）。按要删除的变量var
降序排序的列表行。我已经给出了我要遵循的方法。我想知道这是一种有效的方法。只有在绘制图表后，我才能知道我的异常值。从那里我可以识别3个异常值点，我转到df并按var
的desc顺序排序，然后删除前3行。必须计算更大的切点，而不是目测。R有多种计算方法，具体取决于您的具体分析。“极端”是一个需要量化的统计概念，以使任何统计意义。它不能以草率、直观的方式完成。因此，绘图（sort（df[[1]]$var））
将给出排序（df[[1]$var
vs索引。它将偏离主趋势（或远离其他数据点）的点定位。这些是我想要删除的。当我在df中按降序排序时，我会了解图表中显示的数据，从而删除它们。