Python Rosalind问题的共识和概况
我正在研究罗莎琳的问题,特别是题为“共识和概况”的问题 数据输入如下:Python Rosalind问题的共识和概况,python,bioinformatics,biopython,Python,Bioinformatics,Biopython,我正在研究罗莎琳的问题,特别是题为“共识和概况”的问题 数据输入如下: >Rosalind_1 ATCCAGCT >Rosalind_2 GGGCAACT >Rosalind_3 ATGGATCT >Rosalind_4 AAGCAACC >Rosalind_5 TTGGAACT >Rosalind_6 ATGCCATT >Rosalind_7 ATGGCACT 以上是七个DNA序列及其ID或标题,输出应如下所示: ATGC
>Rosalind_1
ATCCAGCT
>Rosalind_2
GGGCAACT
>Rosalind_3
ATGGATCT
>Rosalind_4
AAGCAACC
>Rosalind_5
TTGGAACT
>Rosalind_6
ATGCCATT
>Rosalind_7
ATGGCACT
以上是七个DNA序列及其ID或标题,输出应如下所示:
ATGCAACT
A: 5 1 0 0 5 5 0 0
C: 0 0 1 4 2 0 6 1
G: 1 1 6 3 0 1 0 0
T: 1 5 0 0 0 1 1 6
现在,到目前为止,这是我的代码,我想生成上面的矩阵,该矩阵按列计算所有A的Cs、Gs和Ts:
import sys
import Bio.SeqIO
count = {}
count=OrderedDict()
list_seq = []
for seq in Bio.SeqIO.parse(sys.stdin, 'fasta'):
sequn = str(seq.seq)
print "sequn",sequn
for i,nuc in enumerate(sequn):
print "nuc", nuc
key = (nuc,i)
try:
count[key] = count[key]+1
except KeyError:
count[key] = 1
字典计数的输出如下所示:
([(('A', 0), 5), (('T', 1), 5), (('C', 2), 1), (('C', 3), 4), (('A', 4), 5),
(('G', 5), 1), (('C', 6), 6), (('T', 7), 6), (('G', 0), 1), (('G', 1), 1),
(('G', 2), 6), (('A', 5), 5), (('G', 3), 3), (('T', 5), 1), (('A', 1), 1),
(('C', 7), 1), (('T', 0), 1), (('C', 4), 2), (('T', 6), 1)])
我想从上面的输出字典中生成输出矩阵,如何实现
先谢谢你
d = {}
count = ([(('A', 0), 5), (('T', 1), 5), (('C', 2), 1), (('C', 3), 4), (('A', 4), 5),(('G', 5), 1), (('C', 6), 6), (('T', 7), 6), (('G', 0), 1), (('G', 1), 1),
(('G', 2), 6), (('A', 5), 5), (('G', 3), 3), (('T', 5), 1), (('A', 1), 1),
(('C', 7), 1), (('T', 0), 1), (('C', 4), 2), (('T', 6), 1)])
for each in count:
if each[0][0] in d:
li = d[each[0][0]]
spot = each[0][1]
li[spot] = each[1]
d[each[0][0]] = li
else:
li=[0]*8
spot = each[0][1]
li[spot] = each[1]
d[each[0][0]] = li
for each in sorted(d):
print each," ",d[each]
sol=""
for each in range(8):
sol+=max(d, key=lambda x:d[x][each])
print sol
正如你的问题所说,我只是重复了整条记录并创建了一条新的记录
但您可以在修改dict计数时执行此操作。我假设列表的长度为8。如果高于8。应相应修改上述内容
如果您可以直接编辑问题的要点,那就太好了。这里有一个使用
BioPython
和collections的解决方案。Counter
from Bio import SeqIO
from collections import Counter
def main(fasta_file):
"""
>>> print main(r'./data/CONS_sample.fa')
ATGCAACT
A: 5 1 0 0 5 5 0 0
C: 0 0 1 4 2 0 6 1
G: 1 1 6 3 0 1 0 0
T: 1 5 0 0 0 1 1 6
"""
with open(fasta_file) as fh:
dna_strings = [str(fasta.seq) for fasta in SeqIO.parse(fh, 'fasta')]
transposed = zip(*dna_strings)
counters = [Counter(column) for column in transposed]
# create consensus
consensus = ''.join([counter.most_common(1)[0][0] for counter in counters])
# create profile matrix
matrix = ''
for base in 'ACGT':
matrix += '{}:'.format(base)
for counter in counters:
matrix += ' {}'.format(counter[base])
matrix += '\n'
matrix = matrix.rstrip()
return '\n'.join([consensus, matrix])
if __name__ == '__main__':
import doctest
doctest.testmod()
print main(r'./data/CONS.txt')
您好@WannaBeCoder,谢谢您的回复。我测试了您编写的代码,出现了一个错误,即spot=each[0][1]indexer错误:string index超出范围我在spot没有收到任何此类错误。count是我所认为的吗?我解决了这个问题,非常感谢,但有一件事我遇到了麻烦,那就是如何在矩阵上方输出序列?非常感谢,但索引超出范围仍然存在spot=each[0][1]索引器:字符串索引超出范围。这很奇怪,我检查了我的代码,但不知道为什么会出现错误。您在哪部分遇到问题?将数据结构从元组的dict切换到dict列表可能会使问题变得更容易。嘿@tripleee我已经完成了矩阵输出的设计部分。但我现在的问题是如何得到结果序列,即ATGCAACT。这是每列中最常用的基的结果。这就是我现在的困境。