R 如何计算一个字符在字符串中出现的次数?

R 如何计算一个字符在字符串中出现的次数?,r,bioinformatics,dna-sequence,R,Bioinformatics,Dna Sequence,我有一个DNA序列作为我的论点 sequence<-c("ATGAATTTTGATTTA") 请帮我解决这个问题。只要你的密码子没有移位或缺口就行 sequence<-c("ATGAATTTTGATTTAATG") #split into 3-character codons splitseq<-substring(sequence, seq(1, nchar(sequence)-1, 3), seq(3, nchar(sequence), 3)) [1] "ATG" "

我有一个DNA序列作为我的论点

sequence<-c("ATGAATTTTGATTTA")

请帮我解决这个问题。

只要你的密码子没有移位或缺口就行

sequence<-c("ATGAATTTTGATTTAATG")

#split into 3-character codons
splitseq<-substring(sequence, seq(1, nchar(sequence)-1, 3), seq(3, nchar(sequence), 3))

[1] "ATG" "AAT" "TTT" "GAT" "TTA" "ATG"

#table them to get the frequency
x<-as.data.frame(table(splitseq))

#match up codon translation
x$codon<-codon[match(x$splitseq, names(codon))]

#get percentage
x$percentage<-x$Freq / sum(x$Freq)

x
splitseq Freq codon percentage
1      AAT    1     N  0.1666667
2      ATG    2     M  0.3333333
3      GAT    1     D  0.1666667
4      TTA    1     L  0.1666667
5      TTT    1     F  0.1666667

sequences对于没有生物背景的用户来说,你的问题是不可能理解的:密码子是什么?它与氨基酸的关系如何?让你的问题更简单。当CTC不在给定序列中时,你是如何得到它的计数的?你在哪里计算“ATG”的?DNA翻译成氨基酸,形成蛋白质,这是每个生物过程的功能关键。三组dna序列被称为密码子,例如ATG、TTT,它们编码特定的氨基酸,如M(蛋氨酸)。我已经给出了一个列表,其中包括编码氨基酸的密码子列表。另外,CTC计数19666是催眠的,只是想让你知道@PoGibasI我想检查所有64个密码子的频率,而不仅仅是单个ATG@onyanbuw你在哪里检查它们?这是一个很好的开始,但我认为他的DNA序列并不是那么简单,因为我们在一开始并不总是有ATG。我们可能应该做的是运行
start Good point,需要OP提供更多关于序列本身的信息,如果它们已经过预筛选,等等。我还发现:
codon   count   amino_acids  percentage
CTC     19666       L           0.18
CTT     27340       L           0.13
CTA     31534       L           0.20
CTG     76644       L           0.49
sequence<-c("ATGAATTTTGATTTAATG")

#split into 3-character codons
splitseq<-substring(sequence, seq(1, nchar(sequence)-1, 3), seq(3, nchar(sequence), 3))

[1] "ATG" "AAT" "TTT" "GAT" "TTA" "ATG"

#table them to get the frequency
x<-as.data.frame(table(splitseq))

#match up codon translation
x$codon<-codon[match(x$splitseq, names(codon))]

#get percentage
x$percentage<-x$Freq / sum(x$Freq)

x
splitseq Freq codon percentage
1      AAT    1     N  0.1666667
2      ATG    2     M  0.3333333
3      GAT    1     D  0.1666667
4      TTA    1     L  0.1666667
5      TTT    1     F  0.1666667