Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/70.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在R/R studio中查看非要素索引_R_Cluster Analysis_Similarity_Hierarchical Clustering - Fatal编程技术网

在R/R studio中查看非要素索引

在R/R studio中查看非要素索引,r,cluster-analysis,similarity,hierarchical-clustering,R,Cluster Analysis,Similarity,Hierarchical Clustering,我正在尝试根据项目的属性对项目进行聚类(查找类似的项目)。我最初有一个CSV格式: 项目|属性1 |属性2…..大约200个属性 因为它是一组混合格式的属性(INT、String…),所以我决定连接这些属性,现在我有: 项目|连接属性 我的群集代码是: uniqueItem <- unique(as.character(data$ConcatenatedAttributes)) distanceMatrix <- stringdistmatrix(uniqueItem ,u

我正在尝试根据项目的属性对项目进行聚类(查找类似的项目)。我最初有一个CSV格式:

项目|属性1 |属性2…..大约200个属性

因为它是一组混合格式的属性(INT、String…),所以我决定连接这些属性,现在我有:

项目|连接属性

我的群集代码是:

 uniqueItem <- unique(as.character(data$ConcatenatedAttributes))
    distanceMatrix <- stringdistmatrix(uniqueItem ,uniqueItem ,method = "jw")
    rownames(distanceMatrix ) <- uniqueItem 
    hc <- hclust(as.dist(distanceMatrix ))
    dfClust <- data.frame(uniqueItem , cutree(hc, k=200))

uniqueItem您希望根据数据帧对您进行分组

一个明显的方法是使用
for
循环。大多数R迷会建议学习
dplyr


但是,恕我直言,您认为将所有内容连接到一个不可管理的字段中,然后滥用字符串距离是非常可怕的。

为什么您认为将所有内容连接到一个不可管理的字段中,然后滥用字符串距离是一个好主意?!?