R将用户定义的函数应用于数据帧的所有行_R_Apply

R将用户定义的函数应用于数据帧的所有行

R将用户定义的函数应用于数据帧的所有行,r,apply,R,Apply,我正在努力通过数据帧中列的行进行循环，然后使用当前行定义将在函数中使用的参数。以下是示例数据帧： df <- structure(list(child = c("A268", "A268497", "A268497BOX", "A268497BOX2", "A268497BOX218", "A277", "A277A79", "A277A79091", "A277A790911", "A277A79091144", "A492", "A492586", "A492586BOX", "

我正在努力通过数据帧中列的行进行循环，然后使用当前行定义将在函数中使用的参数。以下是示例数据帧：

df <- 
structure(list(child = c("A268", "A268497", "A268497BOX", "A268497BOX2", 
"A268497BOX218", "A277", "A277A79", "A277A79091", "A277A790911", 
"A277A79091144", "A492", "A492586", "A492586BOX", "A492586BOX1", 
"A492586BOX144", "A492A69", "A492A69027", "A492A690271", "A492A69027144", 
"A492A6902715K", "A492A6902719Y", "A492A690271BH", "A492A690271BI", 
"A492A690271CQ", "A492A690271CS", "A492A690271CT", "A492A690271CU", 
"A492A690271CV", "A492A690271CW", "A492A690271CX", "A492A690271CY", 
"A492A690271DA", "A492A69028", "A492A690281", "A492A69028144", 
"A492A69402", "A492A694021", "A492A69402144", "A492A70", "A492A70033", 
"A492A700331", "A492A70033144", "A492A700332", "A492A70033244", 
"A492A70034", "A492A700341", "A492A70034144", "A492A70035", "A492A700351", 
"A492A70035144"), clvl = c(2, 3, 4, 5, 6, 2, 3, 4, 5, 6, 2, 3, 
4, 5, 6, 3, 4, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 4, 
5, 6, 4, 5, 6, 3, 4, 5, 6, 5, 6, 4, 5, 6, 4, 5, 6), parent = c("A", 
"A268", "A268497", "A268497BOX", "A268497BOX2", "A", "A277", 
"A277A79", "A277A79091", "A277A790911", "A", "A492", "A492586", 
"A492586BOX", "A492586BOX1", "A492", "A492A69", "A492A69027", 
"A492A690271", "A492A690271", "A492A690271", "A492A690271", "A492A690271", 
"A492A690271", "A492A690271", "A492A690271", "A492A690271", "A492A690271", 
"A492A690271", "A492A690271", "A492A690271", "A492A690271", "A492A69", 
"A492A69028", "A492A690281", "A492A69", "A492A69402", "A492A694021", 
"A492", "A492A70", "A492A70033", "A492A700331", "A492A70033", 
"A492A700332", "A492A70", "A492A70034", "A492A700341", "A492A70", 
"A492A70035", "A492A700351"), plvl = c(1, 2, 3, 4, 5, 1, 2, 3, 
4, 5, 1, 2, 3, 4, 5, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 
5, 5, 5, 3, 4, 5, 3, 4, 5, 2, 3, 4, 5, 4, 5, 3, 4, 5, 3, 4, 5
)), row.names = c(NA, 50L), class = "data.frame")

假设

child

（或

pathString

）中的字符数将继续增加，如数据共享中所示，一种方法是使用

purr:：accumulate

，它允许从以前的输出中获取输入并按组应用

library(dplyr)

df %>%
  group_by(gr = cumsum(c(TRUE, diff(nchar(child)) < 0))) %>%
  mutate(ans = purrr::accumulate(pathString, ~sub(".*(/.*)",paste0(.x, "\\1"),.y))) 

#   child         pathString        gr ans               
#   <chr>         <chr>          <int> <chr>             
# 1 A268          A/268              1 A/268             
# 2 A268497       A268/497           1 A/268/497         
# 3 A268497BOX    A268497/BOX        1 A/268/497/BOX     
# 4 A268497BOX2   A268497BOX/2       1 A/268/497/BOX/2   
# 5 A268497BOX218 A268497BOX2/18     1 A/268/497/BOX/2/18
# 6 A277          A/277              2 A/277             
# 7 A277A79       A277/A79           2 A/277/A79         
# 8 A277A79091    A277A79/091        2 A/277/A79/091     
# 9 A277A790911   A277A79091/1       2 A/277/A79/091/1   
#10 A277A79091144 A277A790911/44     2 A/277/A79/091/1/44

我使用下面的代码块成功地完成了它，但是循环需要75-80秒，我想可能有更快的方法：

for(row in 1:nrow(df5)) {

  x=df5[row,2] #child
  y=df5[row,3] #pathString
  g=df5[row,c('gr')]

  df5$pathString[df5$gr==g] <- sub(x,y,df5$pathString[df5$gr==g])
  df5$child[df5$gr==g] <- sub(x,y,df5$child[df5$gr==g])

}

这就是

df4

的制作方法：

df4 <- sqldf("select  *, parent || replace(child,parent,'/') AS pathString FROM df ORDER BY child")

df4创建pathString
变量的逻辑是什么？因此必须对df
进行排序？真正的df
有超过35k行，我明天会检查你的答案，然后再返回you@Ibo对这是我在查看预期输出时得出的结论。关于如何达到输出，没有任何共享的逻辑。我使用更广泛的数据样本进行了尝试，但没有生成正确的输出。实际上，我退了一步，编辑了数据示例，这样您就可以访问具有级别的子值和父值（不确定是否有帮助）。如果您应用您的答案，您将看到，gr
在非级别2的任何级别重置时，前斜杠都没有正确创建，此外，在某些情况下，它会从上面的行中添加段，而我们只允许向值添加正斜杠。这是为了创建一个路径，以便我可以创建数据。tree这是没有人回复的原始帖子。也许有更好的方法来得到最终答案，但我可以做到这一点：我设法找到了一个解决方案，但我相信有一个更聪明的方法！
for(row in 1:nrow(df5)) {

  x=df5[row,2] #child
  y=df5[row,3] #pathString
  g=df5[row,c('gr')]

  df5$pathString[df5$gr==g] <- sub(x,y,df5$pathString[df5$gr==g])
  df5$child[df5$gr==g] <- sub(x,y,df5$child[df5$gr==g])

}

library(zoo)
df4$gr <- ifelse(df4$clvl==2,df4$child,NA)
df4$gr <- na.locf(df4$gr)

df4 <- sqldf("select  *, parent || replace(child,parent,'/') AS pathString FROM df ORDER BY child")