String 如何从dict翻译FASTA序列/如何使函数输出为字符串?
首先,我不能使用BioPython:( 我需要从一个FASTA文件中翻译一组FASTA序列,并将它们翻译成蛋白质序列String 如何从dict翻译FASTA序列/如何使函数输出为字符串?,string,dictionary,typeerror,bioinformatics,fasta,String,Dictionary,Typeerror,Bioinformatics,Fasta,首先,我不能使用BioPython:( 我需要从一个FASTA文件中翻译一组FASTA序列,并将它们翻译成蛋白质序列 >some info ACCGGGCTAAA >other info ACCGCCAATTT 所以我可以创建一个只输出DNA序列的函数,但是当我尝试翻译它时,我得到了以下错误:; “TypeError:类型为“\u io.TextIOWrapper”的对象没有len() 我没有ide如何解决这个问题。非常感谢任何帮助!!!!!同时我正在学习我的第一门Python课
>some info
ACCGGGCTAAA
>other info
ACCGCCAATTT
所以我可以创建一个只输出DNA序列的函数,但是当我尝试翻译它时,我得到了以下错误:;
“TypeError:类型为“\u io.TextIOWrapper”的对象没有len()
我没有ide如何解决这个问题。非常感谢任何帮助!!!!!同时我正在学习我的第一门Python课程,所以请向一个白痴解释任何答案:)
你期望的输出是什么 对于输入,例如:
some info ACCGGGCTAAA
other info ACCGCCAATTT
代码为:
def readSeq():
for line in open('mRNA_database.fasta', 'r'):
if line.startswith('>'):
continue
line = line.strip()
yield line.split(' ')[2]
g_code=dict()
g_code = {'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
'TAC':'Y', 'TAT':'Y', 'TAA':'stop', 'TAG':'stop',
'TGC':'C', 'TGT':'C', 'TGA':'stop', 'TGG':'W'}
def aa_to_prt(g_code):
prt = ''
for name in readSeq():
codon = name[:3]
prt += g_code[codon]
print(prt)
aa_to_prt(g_code)
我得到了输出:
TT
这就是您想要的吗?您似乎正在尝试使用
len(filehandle)
来计算您可以读取文件的距离。但是句柄没有长度——文件可能有长度,但这不是您要查看的。无论如何,API是一个更通用的API,在很多情况下,您打开的流(还)没有长度——系统无法知道何时打开句柄用户将键入多少字节,或者有多少数据包将通过网络到达
相反,约定只是在句柄上迭代,直到它不再生成值。(在幕后,现代Python使用一个迭代器,当没有什么可读取时,它会创建一个StopIteration
异常。)
您的readSeq
函数可以正确地执行此操作,但您没有从中返回任何值,因此它只会使用文件,并在文件末尾打开文件句柄,而不留下任何可读取的内容
也许可以试试这样的
def prtSeq(fastahandle):
global g_code # as defined in your code already
for line in fastahandle:
if line.startswith('>'):
continue
line = line.strip()
proteins = []
for seq in xrange(0, len(line)-1, 3):
proteins.append(g_code[line[seq:seq+3]])
print(''.join(proteins))
prtSeq(open('mRNA_database.fasta', 'r'))
另一方面,给变量分配一个空字典是没有用的;您将立即使用新字典覆盖上一个值
更好的设计只会将值返回给调用者进行打印,但我认为您主要感兴趣的是使用尽可能简单的代码完成工作。不幸的是,问题的格式设置不正确。FASTA格式定义良好,易于谷歌搜索。遗憾的是,您尝试使用解析器是基于错误的假设,基于OP原始问题中的格式问题。。。。尽管只需
yield
ing整个剥离生产线就可以解决这个问题。但是,然后你会想通过三个字符的组在整行上迭代,将每个DNA三元组翻译成相应的蛋白质。你的示例甚至没有对齐成三元组,因此你的代码也因此失败。你能更新一个包含完整三联体的例子吗,或者更新这个问题来解释如果最后一个蛋白质不完整会发生什么?
def prtSeq(fastahandle):
global g_code # as defined in your code already
for line in fastahandle:
if line.startswith('>'):
continue
line = line.strip()
proteins = []
for seq in xrange(0, len(line)-1, 3):
proteins.append(g_code[line[seq:seq+3]])
print(''.join(proteins))
prtSeq(open('mRNA_database.fasta', 'r'))