String 如何从dict翻译FASTA序列/如何使函数输出为字符串?

String 如何从dict翻译FASTA序列/如何使函数输出为字符串?,string,dictionary,typeerror,bioinformatics,fasta,String,Dictionary,Typeerror,Bioinformatics,Fasta,首先,我不能使用BioPython:( 我需要从一个FASTA文件中翻译一组FASTA序列,并将它们翻译成蛋白质序列 >some info ACCGGGCTAAA >other info ACCGCCAATTT 所以我可以创建一个只输出DNA序列的函数,但是当我尝试翻译它时,我得到了以下错误:; “TypeError:类型为“\u io.TextIOWrapper”的对象没有len() 我没有ide如何解决这个问题。非常感谢任何帮助!!!!!同时我正在学习我的第一门Python课

首先,我不能使用BioPython:( 我需要从一个FASTA文件中翻译一组FASTA序列,并将它们翻译成蛋白质序列

>some info
ACCGGGCTAAA

>other info
ACCGCCAATTT
所以我可以创建一个只输出DNA序列的函数,但是当我尝试翻译它时,我得到了以下错误:; “TypeError:类型为“\u io.TextIOWrapper”的对象没有len() 我没有ide如何解决这个问题。非常感谢任何帮助!!!!!同时我正在学习我的第一门Python课程,所以请向一个白痴解释任何答案:)


你期望的输出是什么

对于输入,例如:

some info ACCGGGCTAAA
other info ACCGCCAATTT
代码为:

def readSeq():
    for line in open('mRNA_database.fasta', 'r'):
        if line.startswith('>'):
            continue
        line = line.strip()
        yield line.split(' ')[2]

g_code=dict()
g_code = {'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
    'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
    'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
    'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
    'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
    'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
    'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
    'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
    'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
    'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
    'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
    'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
    'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
    'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
    'TAC':'Y', 'TAT':'Y', 'TAA':'stop', 'TAG':'stop',
    'TGC':'C', 'TGT':'C', 'TGA':'stop', 'TGG':'W'}

def aa_to_prt(g_code):
    prt = ''
    for name in readSeq():
        codon = name[:3]
        prt += g_code[codon]
    print(prt)

aa_to_prt(g_code)
我得到了输出:

TT

这就是您想要的吗?

您似乎正在尝试使用
len(filehandle)
来计算您可以读取文件的距离。但是句柄没有长度——文件可能有长度,但这不是您要查看的。无论如何,API是一个更通用的API,在很多情况下,您打开的流(还)没有长度——系统无法知道何时打开句柄用户将键入多少字节,或者有多少数据包将通过网络到达

相反,约定只是在句柄上迭代,直到它不再生成值。(在幕后,现代Python使用一个迭代器,当没有什么可读取时,它会创建一个
StopIteration
异常。)

您的
readSeq
函数可以正确地执行此操作,但您没有从中返回任何值,因此它只会使用文件,并在文件末尾打开文件句柄,而不留下任何可读取的内容

也许可以试试这样的

def prtSeq(fastahandle):
    global g_code # as defined in your code already
    for line in fastahandle:
        if line.startswith('>'):
            continue
        line = line.strip()
        proteins = []
        for seq in xrange(0, len(line)-1, 3):
            proteins.append(g_code[line[seq:seq+3]])
        print(''.join(proteins))

prtSeq(open('mRNA_database.fasta', 'r'))
另一方面,给变量分配一个空字典是没有用的;您将立即使用新字典覆盖上一个值


更好的设计只会将值返回给调用者进行打印,但我认为您主要感兴趣的是使用尽可能简单的代码完成工作。

不幸的是,问题的格式设置不正确。FASTA格式定义良好,易于谷歌搜索。遗憾的是,您尝试使用解析器是基于错误的假设,基于OP原始问题中的格式问题。。。。尽管只需
yield
ing整个剥离生产线就可以解决这个问题。但是,然后你会想通过三个字符的组在整行上迭代,将每个DNA三元组翻译成相应的蛋白质。你的示例甚至没有对齐成三元组,因此你的代码也因此失败。你能更新一个包含完整三联体的例子吗,或者更新这个问题来解释如果最后一个蛋白质不完整会发生什么?
def prtSeq(fastahandle):
    global g_code # as defined in your code already
    for line in fastahandle:
        if line.startswith('>'):
            continue
        line = line.strip()
        proteins = []
        for seq in xrange(0, len(line)-1, 3):
            proteins.append(g_code[line[seq:seq+3]])
        print(''.join(proteins))

prtSeq(open('mRNA_database.fasta', 'r'))