R 计数数据的聚类
我目前正在尝试在如下数据集中查找群集:R 计数数据的聚类,r,count,statistics,cluster-analysis,R,Count,Statistics,Cluster Analysis,我目前正在尝试在如下数据集中查找群集: Dienstag 19 Mittwoch 20 Donnerstag 21 Freitag 22 Montag 25 Dienstag 26 Donnerstag 28 [1,] 0 0 0 0 0 0 NA [2,] 0 0 0
Dienstag 19 Mittwoch 20 Donnerstag 21 Freitag 22 Montag 25 Dienstag 26 Donnerstag 28
[1,] 0 0 0 0 0 0 NA
[2,] 0 0 0 0 0 0 NA
[3,] 0 0 0 0 0 0 NA
[4,] 0 0 0 0 1 0 NA
[5,] 1 0 1 1 1 1 NA
[6,] 0 0 0 0 0 0 NA
[7,] 4 0 1 0 2 1 NA
[8,] 0 1 2 1 0 2 NA
[9,] 0 0 1 0 0 0 NA
[10,] 1 0 0 0 0 1 0
[11,] 2 0 1 0 0 5 0
[12,] 1 0 0 0 0 1 1
[13,] 0 1 0 0 0 0 0
[14,] 0 0 1 0 4 1 0
它对应于给定日期和时间的用户使用应用程序的计数次数
我想找到与小时使用相关的模式/集群,但我不知道如何管理它。如果你能给我一些关于方法的建议,那将非常有帮助。聚类也有统计方法,但这里有一个可视化的方法。我很懒,使用我熟悉的库来实现这一目标,但使用一些基本工具可能会更有效地实现这一目标
## dat <- read.table(text=" Dienstag.19 Mittwoch.20 Donnerstag.21 Freitag.22 Montag.25 Dienstag.26 Donnerstag.28
## [1,] 0 0 0 0 0 0 NA
## [2,] 0 0 0 0 0 0 NA
## [3,] 0 0 0 0 0 0 NA
## [4,] 0 0 0 0 1 0 NA
## [5,] 1 0 1 1 1 1 NA
## [6,] 0 0 0 0 0 0 NA
## [7,] 4 0 1 0 2 1 NA
## [8,] 0 1 2 1 0 2 NA
## [9,] 0 0 1 0 0 0 NA
## [10,] 1 0 0 0 0 1 0
## [11,] 2 0 1 0 0 5 0
## [12,] 1 0 0 0 0 1 1
## [13,] 0 1 0 0 0 0 0
## [14,] 0 0 1 0 4 1 0", header=TRUE)
dat$hour <- factor(1:nrow(dat))
library(reshape2); library(qdap); library(ggplot2); library(plyr)
dat2 <- melt(dat)
dat2[, 2] <- beg2char(dat2[, 2], ".")
dat2 <- ddply(dat2, .(variable), transform,
rescale = scale(value))
ggsave("heat.png")
ggplot(dat3, aes(variable, hour)) + geom_tile(aes(fill=rescale)) +
scale_fill_gradient(low = "white", high = "red")
##dat大多数聚类算法都假设数据是连续的。当然,您可以将整数“强制转换”为双倍值,但结果将不再像真正的连续值那样有意义
我喜欢泰勒的视觉方法。如果有一个有意义的模式,你的大脑视觉皮层可能是发现它的最佳工具。这实际上是一个统计问题,而不是编码问题。但是试试热图。你说得对,我会试着在统计部分提问。谢谢你的方法是一个好的开始