R 用lappy进行多组k-均值聚类
我有大约100000人,每个人都有旅行时间。我试图为每个人获得一个集群(即,总共100000个集群应用程序)。每个人至少应该有15次旅行,所以我不理解为什么会出现以下错误,除非该条件确实不正确。或者可能是我错误地使用了lappy函数 我运行以下代码:R 用lappy进行多组k-均值聚类,r,cluster-analysis,apply,lapply,R,Cluster Analysis,Apply,Lapply,我有大约100000人,每个人都有旅行时间。我试图为每个人获得一个集群(即,总共100000个集群应用程序)。每个人至少应该有15次旅行,所以我不理解为什么会出现以下错误,除非该条件确实不正确。或者可能是我错误地使用了lappy函数 我运行以下代码: gr_TILPS <- lapply( split(TILPS, TILPS[,"CustomerCard_Num"]), FUN=kmeansfunction) 是否有办法检查导致此错误的custo
gr_TILPS <- lapply( split(TILPS, TILPS[,"CustomerCard_Num"]),
FUN=kmeansfunction)
是否有办法检查导致此错误的customerid?当我检查长度时
aggregate(TILPS$col1, by=list(TILPS$CustomerCard_Num), FUN=length)
(顺便问一下,为什么这段代码这么慢?这不是令人尴尬的并行吗?)
每次观察都>15。我只是想知道是否有可能检查导致错误的客户id,根据R
编辑:
我发现,在x变量方面,行程并不明显,谢谢。它们是不同的,因为它们发生在不同的日期,但总是在同一时间
kmeansfunction
来自哪里?通常,集群的数量远少于观测的数量。为每个人创建一个集群是没有意义的。那么你根本就没有集群。也许我只是不明白你想做什么,但这似乎没有意义。它说“更多的集群中心,而不是不同的数据点”。这告诉我,对于你们中的一个人来说,只有一次旅行时间,所以不可能找到两个集群。是的,但每个人至少应该有15次旅行,所以这就是为什么这个错误让我困惑的原因。我已经根据这个标准预先选择了这些人。我发现旅行在x变量方面并不明显,谢谢。它们是不同的,因为它们发生在不同的日期,但总是在同一时间!
aggregate(TILPS$col1, by=list(TILPS$CustomerCard_Num), FUN=length)