在R/R studio中查看非要素索引
我正在尝试根据项目的属性对项目进行聚类(查找类似的项目)。我最初有一个CSV格式: 项目|属性1 |属性2…..大约200个属性 因为它是一组混合格式的属性(INT、String…),所以我决定连接这些属性,现在我有: 项目|连接属性 我的群集代码是:在R/R studio中查看非要素索引,r,cluster-analysis,similarity,hierarchical-clustering,R,Cluster Analysis,Similarity,Hierarchical Clustering,我正在尝试根据项目的属性对项目进行聚类(查找类似的项目)。我最初有一个CSV格式: 项目|属性1 |属性2…..大约200个属性 因为它是一组混合格式的属性(INT、String…),所以我决定连接这些属性,现在我有: 项目|连接属性 我的群集代码是: uniqueItem <- unique(as.character(data$ConcatenatedAttributes)) distanceMatrix <- stringdistmatrix(uniqueItem ,u
uniqueItem <- unique(as.character(data$ConcatenatedAttributes))
distanceMatrix <- stringdistmatrix(uniqueItem ,uniqueItem ,method = "jw")
rownames(distanceMatrix ) <- uniqueItem
hc <- hclust(as.dist(distanceMatrix ))
dfClust <- data.frame(uniqueItem , cutree(hc, k=200))
uniqueItem您希望根据数据帧对您进行分组
一个明显的方法是使用for
循环。大多数R迷会建议学习dplyr
但是,恕我直言,您认为将所有内容连接到一个不可管理的字段中,然后滥用字符串距离是非常可怕的。为什么您认为将所有内容连接到一个不可管理的字段中,然后滥用字符串距离是一个好主意?!?