在R中使用apply（或其他迭代函数）创建向量矩阵_R_Matrix_Encoding_Lapply_Orthogonal

在R中使用apply（或其他迭代函数）创建向量矩阵

r matrix encoding

在R中使用apply（或其他迭代函数）创建向量矩阵,r,matrix,encoding,lapply,orthogonal,R,Matrix,Encoding,Lapply,Orthogonal,我需要在一组八聚体（8个字母的集合）上运行正交编码函数，并将它们作为nx160数字的矩阵返回（其中n是数据上的八聚体数）正交编码函数为： orthocode <- function(octamer){ matcode <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) octamer_char <- as.character(octamer) octamer_split <- s

我需要在一组八聚体（8个字母的集合）上运行正交编码函数，并将它们作为nx160数字的矩阵返回（其中n是数据上的八聚体数）

正交编码函数为：

  orthocode <- function(octamer){
        matcode <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
        octamer_char <- as.character(octamer)
        octamer_split <- strsplit(octamer_char,"")[[1]]
        for (letter in octamer_split){
           ifelse (letter == "A", (matcode = rbind(matcode,c(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "R", (matcode = rbind(matcode,c(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "N", (matcode = rbind(matcode,c(0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "D", (matcode = rbind(matcode,c(0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "C", (matcode = rbind(matcode,c(0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "Q", (matcode = rbind(matcode,c(0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "E", (matcode = rbind(matcode,c(0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "G", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "H", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "I", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "L", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0))),
           ifelse (letter == "K", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0))),
           ifelse (letter == "M", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0))),
           ifelse (letter == "F", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0))),
           ifelse (letter == "P", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0))),
           ifelse (letter == "S", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0))),
           ifelse (letter == "T", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0))),
           ifelse (letter == "W", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0))),
           ifelse (letter == "Y", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0))),
           ifelse (letter == "V", (matcode = rbind(matcode,c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1)))
           ))))))))))))))))))))
       }
       matcode <- matcode[-1,]
       matcode <- c(matcode)
       return(matcode)
    }

该函数正在处理单个八聚体，但当我尝试对其使用lappy时，结果只是一个160个数字的向量，这次代码被修改了（而且毫无意义）

结果如下：

$V1
[1] 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[81] 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

orthocode函数实际上正在工作。我需要知道的是，我如何从数据帧中提取八聚体，在它们上运行函数，并最终得到一个如下所示的矩阵：

rbind(orthocode("ARNDCQEG"),orthocode("NGJKAEPS"),orthocode("ABGSWKLA"))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] [,28]
[1,]    1    0    0    0    0    0    0    0    0     1     0     0     0     0     0     0     0     0     1     0     0     0     0     0     0     0     0     1
[2,]    0    0    0    0    1    0    0    0    0     0     0     0     0     0     0     0     1     0     0     0     0     0     0     0     0     0     0     0
[3,]    1    0    0    0    0    0    0    1    0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
     [,29] [,30] [,31] [,32] [,33] [,34] [,35] [,36] [,37] [,38] [,39] [,40] [,41] [,42] [,43] [,44] [,45] [,46] [,47] [,48] [,49] [,50] [,51] [,52] [,53] [,54]
[1,]     0     0     0     0     0     0     0     0     1     0     0     0     0     0     0     0     0     1     0     0     0     0     0     0     0     0
[2,]     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     1
[3,]     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
     [,55] [,56] [,57] [,58] [,59] [,60] [,61] [,62] [,63] [,64] [,65] [,66] [,67] [,68] [,69] [,70] [,71] [,72] [,73] [,74] [,75] [,76] [,77] [,78] [,79] [,80]
[1,]     1     0     0     0     0     0     0     0     0     1     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
[2,]     0     0     0     1     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
[3,]     0     0     0     0     1     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
     [,81] [,82] [,83] [,84] [,85] [,86] [,87] [,88] [,89] [,90] [,91] [,92] [,93] [,94] [,95] [,96] [,97] [,98] [,99] [,100] [,101] [,102] [,103] [,104] [,105]
[1,]     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0      0      0      0      0      0      0
[2,]     0     0     0     0     0     0     0     0     0     0     0     1     0     0     0     0     0     0     0      0      0      0      0      0      0
[3,]     0     0     0     0     0     0     1     0     0     0     0     0     0     1     0     0     0     0     0      0      0      0      0      0      0
     [,106] [,107] [,108] [,109] [,110] [,111] [,112] [,113] [,114] [,115] [,116] [,117] [,118] [,119] [,120] [,121] [,122] [,123] [,124] [,125] [,126] [,127]
[1,]      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
[2,]      0      0      0      0      0      0      0      0      0      0      0      0      0      1      0      0      0      0      0      0      0      0
[3,]      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      1      0      0      0
     [,128] [,129] [,130] [,131] [,132] [,133] [,134] [,135] [,136] [,137] [,138] [,139] [,140] [,141] [,142] [,143] [,144] [,145] [,146] [,147] [,148] [,149]
[1,]      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
[2,]      1      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
[3,]      0      0      0      0      0      0      0      0      0      0      0      0      0      1      0      0      0      0      0      0      0      0
     [,150] [,151] [,152] [,153] [,154] [,155] [,156] [,157] [,158] [,159] [,160]
[1,]      0      0      0      0      0      0      0      0      0      0      0
[2,]      0      0      0      0      0      0      0      0      0      0      0
[3,]      0      0      0      0      0      0      0      0      0      0      0

输出数据为n行160列的矩阵。对于我必须运行的数据，结果矩阵应该是947x160

有什么想法吗？

switch

具有其他语言中存在的CASE构造的语义。在缺乏良好示例的情况下进行轻微测试，但请尝试以下方法：

orthocode <- function(octamer){
    matcode <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
    octamer_char <- as.character(octamer)
    octamer_split <- strsplit(octamer_char,"")[[1]]
    for (letter in octamer_split){ 
        val <- switch( letter,  
       "A" = c(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "R" = c(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "N" = c(0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "D" = c(0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "C" = c(0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "Q" = c(0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "E" = c(0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "G" = c(0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0),
       "H" = c(0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0),
       "I" = c(0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0),
       "L" = c(0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0),
       "K" = c(0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0),
       "M" = c(0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0),
       "F" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0),
       "P" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0),
       "S" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0),
       "T" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0),
       "W" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0),
       "Y" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0),
       "V" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1)
                 )
      matcode=c(matcode,val)
     }
   matcode 
}

如果我在最后使用这个，我会更喜欢结果（但这不是你期望的）：

matcodeswitch
具有其他语言中存在的CASE构造的语义。在缺乏良好示例的情况下进行轻微测试，但请尝试以下方法：
orthocode <- function(octamer){
    matcode <- c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
    octamer_char <- as.character(octamer)
    octamer_split <- strsplit(octamer_char,"")[[1]]
    for (letter in octamer_split){ 
        val <- switch( letter,  
       "A" = c(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "R" = c(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "N" = c(0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "D" = c(0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "C" = c(0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "Q" = c(0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "E" = c(0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0),
       "G" = c(0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0),
       "H" = c(0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0),
       "I" = c(0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0),
       "L" = c(0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0),
       "K" = c(0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0),
       "M" = c(0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0),
       "F" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0),
       "P" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0),
       "S" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0),
       "T" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0),
       "W" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0),
       "Y" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0),
       "V" = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1)
                 )
      matcode=c(matcode,val)
     }
   matcode 
}

如果我在最后使用这个，我会更喜欢结果（但这不是你期望的）：
matcode我们可以使用match
简化ifelse
，并删除forloop
：
orthocode <- function(octamer){
  matcode <- rep(0, 20)
  octamer_char <- as.character(octamer)
  octamer_split <- strsplit(octamer_char,"")[[1]]

  t(sapply(octamer_split, function(letter){
    res <- matcode
    res[ match(letter, c("A","R","N","D","C","Q","E","G","H","I",
                         "L","K","M","F","P","S","T","W","Y","V"))] <- 1
    res
  }))
}

orthocode我们可以使用match
简化ifelse
，并删除forloop
：
orthocode <- function(octamer){
  matcode <- rep(0, 20)
  octamer_char <- as.character(octamer)
  octamer_split <- strsplit(octamer_char,"")[[1]]

  t(sapply(octamer_split, function(letter){
    res <- matcode
    res[ match(letter, c("A","R","N","D","C","Q","E","G","H","I",
                         "L","K","M","F","P","S","T","W","Y","V"))] <- 1
    res
  }))
}

正交码R是矢量化的。忘记为每种情况运行单独的代码块。不要在循环中增长对象。我只会同意
orthocode <- function(octamer) {

  # Predifine identity matrix
  m <- diag(20) 

  # Predefine values vector (no "J" or "B" here btw)
  rownames(m) <- c("A", "R", "N", "D", "C", "Q", "E", "G", "H", "I", "L",
                   "K", "M", "F", "P", "S", "T", "W", "Y", "V") 

  # Create a character vector for each input
  octamer_split <- strsplit(as.character(octamer), "", fixed = TRUE)

  # match values for each value
  t(sapply(octamer_split, function(x) m[match(x, rownames(m)),])) 

}

或者在你的情况下使用
orthocode(data[, 1])


附言
您的向量中没有J
或B
，因此不确定如何处理您的示例。在这种情况下，它返回NA
s
R是矢量化的。忘记为每种情况运行单独的代码块。不要在循环中增长对象。我只会同意
orthocode <- function(octamer) {

  # Predifine identity matrix
  m <- diag(20) 

  # Predefine values vector (no "J" or "B" here btw)
  rownames(m) <- c("A", "R", "N", "D", "C", "Q", "E", "G", "H", "I", "L",
                   "K", "M", "F", "P", "S", "T", "W", "Y", "V") 

  # Create a character vector for each input
  octamer_split <- strsplit(as.character(octamer), "", fixed = TRUE)

  # match values for each value
  t(sapply(octamer_split, function(x) m[match(x, rownames(m)),])) 

}

或者在你的情况下使用
orthocode(data[, 1])


附言
您的向量中没有J
或B
，因此不确定如何处理您的示例。在这种情况下，它返回NA
s
ifelse
不是为了执行代码而设计的，而是根据逻辑输入向量从向量中的项中进行选择。在这种情况下，一种相当低效的方法是将ifelse
转换为if（test）{code1}else{rest\u of_code}
。毫无疑问，更有效的方法是可能的，但您没有提供完整的示例，更没有提供最小的完整示例。您可以为几个测试字符串添加所需的输出吗？我们不知道您在数据[1]
中有什么内容，以及它的结果应该是什么。仅仅显示一个正交码（“ARNDCQEG”）
的示例是没有帮助的。如果您可以在数据[1]
中显示前2-3个值，并且它们应该得到处理，那么这将非常有用。对于每一行，所需的输出将是上面显示的输出。因此，如果我们只对两个八聚体进行计算，它看起来像是rbind（正交码（“ARNDCQEG”），正交码（“NGJKAEPS”）
首先你没有。其次，cbind
不是更有意义吗？ifelse
不是为了执行代码而设计的，而是根据逻辑输入向量从向量中的项中进行选择。在这种情况下，一种相当低效的方法是将ifelse
转换为if（test）{code1}else{rest\u of_code}
。毫无疑问，更有效的方法是可能的，但您没有提供完整的示例，更没有提供最小的完整示例。您可以为几个测试字符串添加所需的输出吗？我们不知道您在数据[1]
中有什么内容，以及它的结果应该是什么。仅仅显示一个正交码（“ARNDCQEG”）
的示例是没有帮助的。如果您可以在数据[1]
中显示前2-3个值，并且它们应该得到处理，那么这将非常有用。对于每一行，所需的输出将是上面显示的输出。因此，如果我们只对两个八聚体进行计算，它看起来像是rbind（正交码（“ARNDCQEG”），正交码（“NGJKAEPS”）
首先你没有。其次，cbind
不是更有意义吗？我不认为switch
+在循环中增加对象是一种很好的做法，因为它可以很容易地矢量化。谢谢关于switch
的建议，现在看起来确实更好了`matcode如果你想要一个矩阵（列中有值），那么只需使用sapply
，如果你需要的话，在行中转置即可。提升有用的回答被认为是一种很好的方式。我将修改我的代码，以jsut重新运行一个160长度的向量，并演示我对一些五聚体的建议。t（）
和sapply（）
的组合成功了。非常感谢。我不认为在循环中增加对象是一种很好的做法，因为它可以很容易地矢量化。谢谢关于开关的建议，现在看起来真的更好了`matcode如果你想要一个矩阵（列中有值），那么只需使用sapply
，如果你需要的话，在行中转置即可。提升有用的回答被认为是一种很好的方式。我将修改我的代码，以jsut重新运行一个160长度的向量，并演示我对一些五聚体的建议。t（）
和sapply（）的组合成功了。非常感谢你。
orthocode(c("ARNDCQEG", "NGJKAEPS", "ABGSWKLA"))

orthocode(data[, 1])