Python Rosalind问题的共识和概况_Python_Bioinformatics_Biopython

Python Rosalind问题的共识和概况

python

Python Rosalind问题的共识和概况,python,bioinformatics,biopython,Python,Bioinformatics,Biopython,我正在研究罗莎琳的问题，特别是题为“共识和概况”的问题数据输入如下： >Rosalind_1 ATCCAGCT >Rosalind_2 GGGCAACT >Rosalind_3 ATGGATCT >Rosalind_4 AAGCAACC >Rosalind_5 TTGGAACT >Rosalind_6 ATGCCATT >Rosalind_7 ATGGCACT 以上是七个DNA序列及其ID或标题，输出应如下所示： ATGC

我正在研究罗莎琳的问题，特别是题为“共识和概况”的问题

数据输入如下：

 >Rosalind_1
 ATCCAGCT
 >Rosalind_2
 GGGCAACT
 >Rosalind_3
 ATGGATCT
 >Rosalind_4
 AAGCAACC
 >Rosalind_5
 TTGGAACT
 >Rosalind_6
 ATGCCATT
 >Rosalind_7
 ATGGCACT

以上是七个DNA序列及其ID或标题，输出应如下所示：

ATGCAACT
A: 5 1 0 0 5 5 0 0
C: 0 0 1 4 2 0 6 1
G: 1 1 6 3 0 1 0 0
T: 1 5 0 0 0 1 1 6

现在，到目前为止，这是我的代码，我想生成上面的矩阵，该矩阵按列计算所有A的Cs、Gs和Ts：

import sys
import Bio.SeqIO

count = {}
count=OrderedDict()
list_seq = [] 
for seq in Bio.SeqIO.parse(sys.stdin, 'fasta'):
    sequn = str(seq.seq)
    print "sequn",sequn
    for i,nuc in enumerate(sequn):
            print "nuc", nuc 
            key = (nuc,i)
            try:
                    count[key] = count[key]+1
            except KeyError:
                    count[key] = 1

字典计数的输出如下所示：

([(('A', 0), 5), (('T', 1), 5), (('C', 2), 1), (('C', 3), 4), (('A', 4), 5),    
(('G', 5), 1), (('C', 6), 6), (('T', 7), 6), (('G', 0), 1), (('G', 1), 1),   
(('G', 2), 6), (('A', 5), 5), (('G', 3), 3), (('T', 5), 1), (('A', 1), 1), 
(('C', 7), 1), (('T', 0), 1), (('C', 4), 2), (('T', 6), 1)])

我想从上面的输出字典中生成输出矩阵，如何实现

先谢谢你

d = {}

count = ([(('A', 0), 5), (('T', 1), 5), (('C', 2), 1), (('C', 3), 4), (('A', 4), 5),(('G', 5), 1), (('C', 6), 6), (('T', 7), 6), (('G', 0), 1), (('G', 1), 1),   
(('G', 2), 6), (('A', 5), 5), (('G', 3), 3), (('T', 5), 1), (('A', 1), 1), 
(('C', 7), 1), (('T', 0), 1), (('C', 4), 2), (('T', 6), 1)])

for each in count:
    if each[0][0] in d:
        li = d[each[0][0]]
        spot = each[0][1]
        li[spot] = each[1]
        d[each[0][0]] = li
    else:       

        li=[0]*8
        spot = each[0][1]
        li[spot] = each[1]
        d[each[0][0]] = li

for each in sorted(d):
    print each," ",d[each]

sol=""
for each in range(8):
    sol+=max(d, key=lambda x:d[x][each])
print sol

正如你的问题所说，我只是重复了整条记录并创建了一条新的记录

但您可以在修改dict计数时执行此操作。我假设列表的长度为8。如果高于8。应相应修改上述内容

如果您可以直接编辑问题的要点，那就太好了。

这里有一个使用

BioPython

和

collections的解决方案。Counter

from Bio import SeqIO
from collections import Counter

def main(fasta_file):
    """
    >>> print main(r'./data/CONS_sample.fa')
    ATGCAACT
    A: 5 1 0 0 5 5 0 0
    C: 0 0 1 4 2 0 6 1
    G: 1 1 6 3 0 1 0 0
    T: 1 5 0 0 0 1 1 6
    """
    with open(fasta_file) as fh:
        dna_strings = [str(fasta.seq) for fasta in SeqIO.parse(fh, 'fasta')]
        transposed = zip(*dna_strings)
        counters = [Counter(column) for column in transposed]

        # create consensus
        consensus = ''.join([counter.most_common(1)[0][0] for counter in counters])

        # create profile matrix
        matrix = ''
        for base in 'ACGT':
            matrix += '{}:'.format(base)
            for counter in counters:
                matrix += ' {}'.format(counter[base])
            matrix += '\n'
        matrix = matrix.rstrip()

        return '\n'.join([consensus, matrix])

if __name__ == '__main__':
    import doctest
    doctest.testmod()

    print main(r'./data/CONS.txt')

您好@WannaBeCoder，谢谢您的回复。我测试了您编写的代码，出现了一个错误，即spot=each[0][1]indexer错误：string index超出范围我在spot没有收到任何此类错误。count是我所认为的吗？我解决了这个问题，非常感谢，但有一件事我遇到了麻烦，那就是如何在矩阵上方输出序列？非常感谢，但索引超出范围仍然存在spot=each[0][1]索引器：字符串索引超出范围。这很奇怪，我检查了我的代码，但不知道为什么会出现错误。您在哪部分遇到问题？将数据结构从元组的dict切换到dict列表可能会使问题变得更容易。嘿@tripleee我已经完成了矩阵输出的设计部分。但我现在的问题是如何得到结果序列，即ATGCAACT。这是每列中最常用的基的结果。这就是我现在的困境。