如果文件(.fasta)中的某个序列可以用“分隔”,那么如何在R中找到该序列-&引用;

如果文件(.fasta)中的某个序列可以用“分隔”,那么如何在R中找到该序列-&引用;,r,sequence,R,Sequence,我想在fasta文件中查找序列的位置,例如“ATGCTCGACTCCA”。 我已经找到了一种方法来实现这一点,我从这个问题中得到了以下功能: asdf您可以编写自己的简单代码来忽略“-” 以下是核心代码: > temp = s2c(sequence) > newsequence = c2s( temp[temp != "-"] ) c2s()和s2c()是来自“seqinr”包的函数 yo还可以使用R之外的其他软件包,如mummer或Blast+,以获得可读的输出 如果职位很重

我想在fasta文件中查找序列的位置,例如“ATGCTCGACTCCA”。 我已经找到了一种方法来实现这一点,我从这个问题中得到了以下功能:


asdf您可以编写自己的简单代码来忽略“-”

以下是核心代码:

> temp = s2c(sequence)

> newsequence = c2s( temp[temp != "-"] )
c2s()和s2c()是来自“seqinr”包的函数

yo还可以使用R之外的其他软件包,如mummer或Blast+,以获得可读的输出

如果职位很重要,您可以使用下面的代码检索正确的索引:

> which(temp != "-")[i]    #put the the temp index instead of i 

使用
gsub
删除所有连字符。fasta中的核苷酸用
-
分隔?@AvinashRaj我无法删除连字符,因为我需要知道连字符在文件中的位置。@Pgibas它是两个文件的对齐方式。因此,如果一个文件中有一个插入项,那么另一个文件中会有一个“-”,但随后我得到了错误的位置。我需要所有连字符的序列位置。不客气,但如果你的工作是这些,你应该学习使用MUMMER和Blast+软件包,强大的基因组数据对齐工具这不是我的“工作”。我正在做一个比较基因的单身汉。我已经为此学习了R。我没有足够的时间学习MUMMER和Blast+我也是这个领域的新手,学习MUMMER和Blast很容易,不需要很多时间学习,只需安装软件包并尝试阅读它们的帮助,您只需使用WriteStringSet()保存基因组数据并运行MUMMER和/或Blast,这些都是强大的工具“投票需要15个声望”-对不起,我只有8个><,但如果可以,我会投票
> which(temp != "-")[i]    #put the the temp index instead of i