R 用lappy进行多组k-均值聚类_R_Cluster Analysis_Apply_Lapply

R 用lappy进行多组k-均值聚类

R 用lappy进行多组k-均值聚类,r,cluster-analysis,apply,lapply,R,Cluster Analysis,Apply,Lapply,我有大约100000人，每个人都有旅行时间。我试图为每个人获得一个集群（即，总共100000个集群应用程序）。每个人至少应该有15次旅行，所以我不理解为什么会出现以下错误，除非该条件确实不正确。或者可能是我错误地使用了lappy函数我运行以下代码： gr_TILPS <- lapply( split(TILPS, TILPS[,"CustomerCard_Num"]), FUN=kmeansfunction) 是否有办法检查导致此错误的custo

我有大约100000人，每个人都有旅行时间。我试图为每个人获得一个集群（即，总共100000个集群应用程序）。每个人至少应该有15次旅行，所以我不理解为什么会出现以下错误，除非该条件确实不正确。或者可能是我错误地使用了lappy函数

我运行以下代码：

gr_TILPS <- lapply( split(TILPS, TILPS[,"CustomerCard_Num"]),
                    FUN=kmeansfunction)

是否有办法检查导致此错误的customerid？当我检查长度时

aggregate(TILPS$col1, by=list(TILPS$CustomerCard_Num), FUN=length)

（顺便问一下，为什么这段代码这么慢？这不是令人尴尬的并行吗？）

每次观察都>15。我只是想知道是否有可能检查导致错误的客户id，根据R

编辑：

我发现，在x变量方面，行程并不明显，谢谢。它们是不同的，因为它们发生在不同的日期，但总是在同一时间

kmeansfunction

来自哪里？通常，集群的数量远少于观测的数量。为每个人创建一个集群是没有意义的。那么你根本就没有集群。也许我只是不明白你想做什么，但这似乎没有意义。它说“更多的集群中心，而不是不同的数据点”。这告诉我，对于你们中的一个人来说，只有一次旅行时间，所以不可能找到两个集群。是的，但每个人至少应该有15次旅行，所以这就是为什么这个错误让我困惑的原因。我已经根据这个标准预先选择了这些人。我发现旅行在x变量方面并不明显，谢谢。它们是不同的，因为它们发生在不同的日期，但总是在同一时间！

aggregate(TILPS$col1, by=list(TILPS$CustomerCard_Num), FUN=length)