从引用同一生物体的另一个fasta文件(tf)的文件中获取fasta序列(蛋白质组)

从引用同一生物体的另一个fasta文件(tf)的文件中获取fasta序列(蛋白质组),fasta,Fasta,基本上我有两个大的fasta序列文件,第一个是蛋白质组fasta序列(所有蛋白质序列),第二个是同一生物体的转录因子序列fasta文件,我只是想知道是否有任何方法可以使用这两个文件提取非转录序列作为fasta文件??非常感谢答案是可以的,基本上算法如下 读入转录因子序列并存储为哈希或 格言 扫描蛋白质组fasta序列,如果序列/位置 不在hash/dict中,然后追加到数组/列表 扫描后,获取阵列/列表并以所需格式输出 我之所以说hash/dict,取决于您是用python还是其他语言来实现它

基本上我有两个大的fasta序列文件,第一个是蛋白质组fasta序列(所有蛋白质序列),第二个是同一生物体的转录因子序列fasta文件,我只是想知道是否有任何方法可以使用这两个文件提取非转录序列作为fasta文件??非常感谢

答案是可以的,基本上算法如下

  • 读入转录因子序列并存储为哈希或 格言
  • 扫描蛋白质组fasta序列,如果序列/位置 不在hash/dict中,然后追加到数组/列表
  • 扫描后,获取阵列/列表并以所需格式输出
  • 我之所以说hash/dict,取决于您是用python还是其他语言来实现它