使用pmatch[R]使用DNA序列筛选表
我有一套17个表(每个表大约[137520,1]),其中包含长度不同的DNA读取,我正试图根据其中发现的序列进行过滤。我想得到分别包含序列A、序列B和其他的读取的比例。因此,我希望在每个读取上循环,并查找与所需序列的部分匹配使用pmatch[R]使用DNA序列筛选表,r,R,我有一套17个表(每个表大约[137520,1]),其中包含长度不同的DNA读取,我正试图根据其中发现的序列进行过滤。我想得到分别包含序列A、序列B和其他的读取的比例。因此,我希望在每个读取上循环,并查找与所需序列的部分匹配 Reads01[1:5,1] [1] GAGAGGAGCCGGAAATCTGTTCTCGTTCAAGAAATTTGACGAGAA [2] GAGAGGAGCCGGAAATCTGACGAGAAGTTCAAGAAATTTGACGAGAA [3] GAGAGGAGCCGGAA
Reads01[1:5,1]
[1] GAGAGGAGCCGGAAATCTGTTCTCGTTCAAGAAATTTGACGAGAA
[2] GAGAGGAGCCGGAAATCTGACGAGAAGTTCAAGAAATTTGACGAGAA
[3] GAGAGGAGCCGGAAATCTGTTCTCGTTCAAGAATTTGACGAGAA
[4] GAGAGGAGCCGGAAATCTGTTCTCGTTCAAGAAATTTGACGAGAA
[5] GAGAGGAGCCGGAAATTTGACGAGAA
> results01<-pmatch(KCCC01[,1], WTSeq, nomatch = NA_integer_, duplicates.ok = FALSE)
> results01[1:5]
[1] NA NA NA NA NA
Reads01[1:5,1]
[1] GAGAGGAGCGGAATCTGTTCGTTCAGAATTTGAGAAA
[2] 加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加加
[3] GAGAGGAGCGGAATCTGTTCGTTCAAATTGAGAA
[4] GAGAGGAGCGGAATCTGTTCGTTCAGAATTTGAGAAA
[5] gagaggagcggaatttgagaa
>结果01结果01[1:5]
[1] 娜娜娜娜娜娜
即使我只是寻找一封信(这应该给所有人一个肯定的答案),我也会得到NA
> results01A<-pmatch(KCCC01[,1], "A", nomatch = NA_integer_, duplicates.ok = FALSE)
> results01A[1:5]
[1] NA NA NA NA NA
>results01A results01A[1:5]
[1] 娜娜娜娜娜娜
我看不出我做错了什么,我该如何解决这个问题?什么是
WTSeq
?另外,请提供您想要的输出。我认为您不是在寻找pmatch
。尝试grepl(WTSeq,kcc01[,1])
,对于具有WTSeq
的元素,它将返回一个与kcc01[,1]
大小相同的逻辑向量。您还可以查看?grep