R 可视化集群后,最简单的数据子集方法是什么?

R 可视化集群后,最简单的数据子集方法是什么?,r,R,所以在这里我觉得我可以识别两组数据。在直观地识别集群之后,对这些数据进行子集划分的最有效的方法是什么?在这些数据中,马力=49时可以方便地中断,但我知道并非所有数据都是如此干净。您可以使用kmeans或hclust对数据进行聚类。然后提取集群ID,将结果可视化,并将其与您自己的假设进行比较。我将使用mtcars数据来演示 # For reproducibility set.seed(42) # Perform kmeans clustering, 3 groups kclusters <

所以在这里我觉得我可以识别两组数据。在直观地识别集群之后,对这些数据进行子集划分的最有效的方法是什么?在这些数据中,马力=49时可以方便地中断,但我知道并非所有数据都是如此干净。

您可以使用kmeans或hclust对数据进行聚类。然后提取集群ID,将结果可视化,并将其与您自己的假设进行比较。我将使用mtcars数据来演示

# For reproducibility
set.seed(42)

# Perform kmeans clustering, 3 groups
kclusters <- kmeans(mtcars[,c(1,4)], 3)

# Bind together the original data and the clusterID
plot_data <- cbind(mtcars, kclusters$cluster)

# Plot the results and check your own assumptions.
ggplot(plot_data, aes(x = hp, y = mpg)) +
   geom_point(aes(color = factor(kclusters$cluster)))

你最好在交叉路口问这个问题。但是,任何一种聚类技术都会给您带来相当好的结果,只需查看您的数据即可。请参阅?Kmeansy运行kmeans for hclust以识别群集ID。