Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/73.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 用lappy进行多组k-均值聚类_R_Cluster Analysis_Apply_Lapply - Fatal编程技术网

R 用lappy进行多组k-均值聚类

R 用lappy进行多组k-均值聚类,r,cluster-analysis,apply,lapply,R,Cluster Analysis,Apply,Lapply,我有大约100000人,每个人都有旅行时间。我试图为每个人获得一个集群(即,总共100000个集群应用程序)。每个人至少应该有15次旅行,所以我不理解为什么会出现以下错误,除非该条件确实不正确。或者可能是我错误地使用了lappy函数 我运行以下代码: gr_TILPS <- lapply( split(TILPS, TILPS[,"CustomerCard_Num"]), FUN=kmeansfunction) 是否有办法检查导致此错误的custo

我有大约100000人,每个人都有旅行时间。我试图为每个人获得一个集群(即,总共100000个集群应用程序)。每个人至少应该有15次旅行,所以我不理解为什么会出现以下错误,除非该条件确实不正确。或者可能是我错误地使用了lappy函数

我运行以下代码:

gr_TILPS <- lapply( split(TILPS, TILPS[,"CustomerCard_Num"]),
                    FUN=kmeansfunction)
是否有办法检查导致此错误的customerid?当我检查长度时

aggregate(TILPS$col1, by=list(TILPS$CustomerCard_Num), FUN=length)
(顺便问一下,为什么这段代码这么慢?这不是令人尴尬的并行吗?)

每次观察都>15。我只是想知道是否有可能检查导致错误的客户id,根据R

编辑:


我发现,在x变量方面,行程并不明显,谢谢。它们是不同的,因为它们发生在不同的日期,但总是在同一时间

kmeansfunction
来自哪里?通常,集群的数量远少于观测的数量。为每个人创建一个集群是没有意义的。那么你根本就没有集群。也许我只是不明白你想做什么,但这似乎没有意义。它说“更多的集群中心,而不是不同的数据点”。这告诉我,对于你们中的一个人来说,只有一次旅行时间,所以不可能找到两个集群。是的,但每个人至少应该有15次旅行,所以这就是为什么这个错误让我困惑的原因。我已经根据这个标准预先选择了这些人。我发现旅行在x变量方面并不明显,谢谢。它们是不同的,因为它们发生在不同的日期,但总是在同一时间!
aggregate(TILPS$col1, by=list(TILPS$CustomerCard_Num), FUN=length)