如何将使用data.frame单元格的函数应用于data.frame列

如何将使用data.frame单元格的函数应用于data.frame列,r,function,dataframe,R,Function,Dataframe,这个问题是对我之前的一个问题的改编,我觉得我问得不清楚。我正在按行检查列V1和V2是否有公共代码。代码由正斜杠“/”分隔。下面的函数应该从同一行的V1和V2中分别提取一个单元格,并将它们转换为向量。向量的每个元素都是一个代码。然后,函数应检查所获得的两个向量是否具有相同的元素。这些元素最初是4位代码。如果两个向量之间存在任何匹配的4位代码,则函数应返回4。如果没有共同的元素,函数应减少每个代码的位数,然后再次检查。每次函数减少位数时,它也会减少最后返回的分数。我希望将函数返回的值写入我选择的列中

这个问题是对我之前的一个问题的改编,我觉得我问得不清楚。我正在按行检查列V1和V2是否有公共代码。代码由正斜杠“/”分隔。下面的函数应该从同一行的V1和V2中分别提取一个单元格,并将它们转换为向量。向量的每个元素都是一个代码。然后,函数应检查所获得的两个向量是否具有相同的元素。这些元素最初是4位代码。如果两个向量之间存在任何匹配的4位代码,则函数应返回4。如果没有共同的元素,函数应减少每个代码的位数,然后再次检查。每次函数减少位数时,它也会减少最后返回的分数。我希望将函数返回的值写入我选择的列中

这是我的开始状态

structure(list(ID = c(2630611040, 2696102020, 2696526020), V1 = c("7371/3728", 
"2834/2833/2836/5122/8731", "3533/3541/3545/5084"), V2 = c("7379", 
"3841", "3533/3532/3531/1389/8711")), .Names = c("ID", "V1", 
"V2"), class = "data.frame", row.names = c(NA, 3L))

         ID                       V1                       V2
1 2630611040                7371/3728                     7379
2 2696102020 2834/2833/2836/5122/8731                     3841
3 2696526020      3533/3541/3545/5084 3533/3532/3531/1389/8711
我想得到这个

          ID                       V1                       V2   V3
1 2630611040                7371/3728                     7379   3
2 2696102020 2834/2833/2836/5122/8731                     3841   0
3 2696526020      3533/3541/3545/5084 3533/3532/3531/1389/8711   4
我的职能是

coderelat<-function(a, b){

a<-unique(as.integer(unlist(str_split(a, "/")))) #Transforming cells into vectors of codes
b<-unique(as.integer(unlist(str_split(b, "/"))))

a<-a[!is.na(a)]
b<-b[!is.na(b)]

if (length(a)==0 | length(b)==0) { # Check that both cells are not empty

  ir=NA     
  return(ir)

  } else {


for (i in 3:1){

    diff<-intersect(a, b) # See how many products the shops have in common

            if (length(diff)!=0) { #As you find a commonality, give ir the corresponding scoring

              ir=i+1
              break

            } else if (i==1 & length(diff)==0) { #If in the last cycle, there is still no commonality put ir=0

              ir=0
              break

            } else { # If there is no commonality and you are not in the last cycle, reduce the nr. of digits and re-check commonality again

              a<- unique(as.integer(substr(as.character(a), 1, i)))
              b<- unique(as.integer(substr(as.character(b), 1, i)))

        }

    }     
  }
return(ir)
}

coderelat这里有一个使用data.tables的解决方案

get.match <-function(a,b) {
  A <- unique(strsplit(a,"/",fixed=TRUE)[[1]])
  B <- unique(strsplit(b,"/",fixed=TRUE)[[1]])
  for (i in 4:1) if(length(intersect(substr(A,1,i),substr(B,1,i)))>0) return(i)
  return(0L)
}
library(data.table)
setDT(df)[,V3:=get.match(V1,V2),by=ID]
df
#            ID                       V1                       V2 V3
# 1: 2630611040                7371/3728                     7379  3
# 2: 2696102020 2834/2833/2836/5122/8731                     3841  0
# 3: 2696526020      3533/3541/3545/5084 3533/3532/3531/1389/8711  4

get.match使用
dput(…)
提供数据非常有用(+1)。这是一个很好的答案!非常感谢,真的。我有两个问题要澄清你的解决方案。首先,你能解释一下get.match第二行和第三行末尾的[[1]]吗?第二,如果A=NA,函数会做什么?再次感谢
strsplit(…)
创建字符向量的列表。在您的例子中,列表只有一个元素,因此我们使用
[[1]]
进行提取。
get.match <-function(a,b) {
  A <- unique(strsplit(a,"/",fixed=TRUE)[[1]])
  B <- unique(strsplit(b,"/",fixed=TRUE)[[1]])
  for (i in 4:1) if(length(intersect(substr(A,1,i),substr(B,1,i)))>0) return(i)
  return(0L)
}
library(data.table)
setDT(df)[,V3:=get.match(V1,V2),by=ID]
df
#            ID                       V1                       V2 V3
# 1: 2630611040                7371/3728                     7379  3
# 2: 2696102020 2834/2833/2836/5122/8731                     3841  0
# 3: 2696526020      3533/3541/3545/5084 3533/3532/3531/1389/8711  4