R中多维度的聚类/匹配
我有一个非常庞大而复杂的数据集,其中包含许多对公司的观察。公司的一些观察结果是多余的,我需要制作一个键,将多余的观察结果映射到单个观察结果。然而,判断他们是否代表同一家公司的唯一方法是通过各种变量的相似性。我认为合适的方法是基于各种条件的聚类,或者甚至是某种倾向评分匹配。也许我只是需要灵活的工具来制作一个复杂的相似矩阵 不幸的是,我不太确定如何在R中实现这一点。我见过的大多数用于聚类和分类的工具似乎都使用数字距离或分类数据,但似乎不允许使用多个条件或用户指定的条件 下面,我尝试创建一个较小的公开示例,说明我正在处理的数据类型和我试图产生的结果。必须应用某些条件,例如,位置必须相同。有些功能可能会相互关联,例如var1和var2。还有一些特性可能相互关联,但它们不能冲突,例如var3 另一层复杂性是,我试图用来映射冗余观察的关联类型各不相同。例如,id1和id2是重复输入数据两次的同一家公司。在一个地方,它的名字是“苹果”,另一个是“红苹果”。它们共享相同的位置,var1值和var3(调整格式后)。类似地,IDS3、5和6实际上也只是一个公司,尽管每个公司的许多输入是不同的。一些集群将识别多个观测值,而其他集群则只有一个。理想情况下,我希望找到一种方法,根据几个条件对观察结果进行分类或关联,例如: 1.测试位置是否相同 2.测试var3是否不同 3.测试名称是否是其他名称的子字符串 4.测试名称的编辑距离 5.测试观察值之间var1和var2的相似性 无论如何,希望有更好的,更灵活的工具,这比我所发现的,或有人有这种经验的数据工作在R。任何和所有的建议和建议都非常感谢 资料 结果R中多维度的聚类/匹配,r,sorting,cluster-analysis,R,Sorting,Cluster Analysis,我有一个非常庞大而复杂的数据集,其中包含许多对公司的观察。公司的一些观察结果是多余的,我需要制作一个键,将多余的观察结果映射到单个观察结果。然而,判断他们是否代表同一家公司的唯一方法是通过各种变量的相似性。我认为合适的方法是基于各种条件的聚类,或者甚至是某种倾向评分匹配。也许我只是需要灵活的工具来制作一个复杂的相似矩阵 不幸的是,我不太确定如何在R中实现这一点。我见过的大多数用于聚类和分类的工具似乎都使用数字距离或分类数据,但似乎不允许使用多个条件或用户指定的条件 下面,我尝试创建一个较小的公开
id name location var1 var2 var3 Result
1 apples US 1 abc 12345 1
2 red apples US 1 NA 12-345 1
3 green apples Mexico 2 def 235-92 3
4 bananas Brazil 2 abc NA 4
5 oranges Mexico 2 NA 23592 3
6 green apple Mexico NA def NA 3
7 tangerines Honduras NA abc 3498 7
8 mango Honduras 1 NA NA 8
9 strawberries Honduras NA abcd 3498 7
10 strawberry Honduras NA abc 3498 7
11 blueberry Brazil 1 abcd 2348 11
12 blueberry Brazil 3 abc NA 11
13 blueberry Mexico NA def 1859 13
14 bananas Brazil 1 def 2348 11
15 blackberries Honduras NA abc NA 15
16 grapes Mexico 6 qrs NA 16
17 grapefruits Brazil 1 NA 1379 17
18 grapefruit Brazil 2 bcd 1379 17
19 mango Brazil 3 efaq NA 19
20 fuji apples US 4 NA 189-35 20
提前感谢您的时间和帮助 库(stringdist)
library(stringdist)
getMatches <- function(df, tolerance=6){
out <- integer(nrow(df))
for(row in 1:nrow(df)){
dists <- numeric(nrow(df))
for(col in 1:ncol(df)){
tempDist <- stringdist(df[row, col], df[ , col], method="lv")
# WARNING: Matches NA perfectly.
tempDist[is.na(tempDist)] <- 0
dists <- dists + tempDist
}
dists[row] <- Inf
min_dist <- min(dists)
if(min_dist < tolerance){
out[row] <- which.min(dists)
}
else{
out[row] <- row
}
}
return(out)
}
test$Result <- getMatches(test[, -1])
getMatches我们称之为“困难”问题。我认为在每个变量中创建数字距离的方法是使用。然后可以为匹配的总距离定义一些公差。编辑:我会尝试模拟一些东西。还有一些软件包可以帮助你检查与角色的相似性。这将允许您得出“苹果”和“红苹果”在同一个簇中的结论。@Adii\u不会有任何包将“苹果”
匹配到“红苹果”
,也不会有任何其他苹果在其中。@Ishulduseaname您想打赌吗?:)@再见。。。当然我会留下深刻印象的!谢谢你的帮助。我将对此稍加修改,看看是否能让这样的东西起作用。
library(stringdist)
getMatches <- function(df, tolerance=6){
out <- integer(nrow(df))
for(row in 1:nrow(df)){
dists <- numeric(nrow(df))
for(col in 1:ncol(df)){
tempDist <- stringdist(df[row, col], df[ , col], method="lv")
# WARNING: Matches NA perfectly.
tempDist[is.na(tempDist)] <- 0
dists <- dists + tempDist
}
dists[row] <- Inf
min_dist <- min(dists)
if(min_dist < tolerance){
out[row] <- which.min(dists)
}
else{
out[row] <- row
}
}
return(out)
}
test$Result <- getMatches(test[, -1])