String 如何从dict翻译FASTA序列/如何使函数输出为字符串？_String_Dictionary_Typeerror_Bioinformatics_Fasta

String 如何从dict翻译FASTA序列/如何使函数输出为字符串？

string dictionary

String 如何从dict翻译FASTA序列/如何使函数输出为字符串？,string,dictionary,typeerror,bioinformatics,fasta,String,Dictionary,Typeerror,Bioinformatics,Fasta,首先，我不能使用BioPython：( 我需要从一个FASTA文件中翻译一组FASTA序列，并将它们翻译成蛋白质序列 >some info ACCGGGCTAAA >other info ACCGCCAATTT 所以我可以创建一个只输出DNA序列的函数，但是当我尝试翻译它时，我得到了以下错误：； “TypeError:类型为“\u io.TextIOWrapper”的对象没有len（）我没有ide如何解决这个问题。非常感谢任何帮助！！！！！同时我正在学习我的第一门Python课

首先，我不能使用BioPython：( 我需要从一个FASTA文件中翻译一组FASTA序列，并将它们翻译成蛋白质序列

>some info
ACCGGGCTAAA

>other info
ACCGCCAATTT

所以我可以创建一个只输出DNA序列的函数，但是当我尝试翻译它时，我得到了以下错误：； “TypeError:类型为“\u io.TextIOWrapper”的对象没有len（）我没有ide如何解决这个问题。非常感谢任何帮助！！！！！同时我正在学习我的第一门Python课程，所以请向一个白痴解释任何答案：）

你期望的输出是什么

对于输入，例如：

some info ACCGGGCTAAA
other info ACCGCCAATTT

代码为：

def readSeq():
    for line in open('mRNA_database.fasta', 'r'):
        if line.startswith('>'):
            continue
        line = line.strip()
        yield line.split(' ')[2]

g_code=dict()
g_code = {'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
    'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
    'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
    'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
    'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
    'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
    'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
    'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
    'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
    'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
    'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
    'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
    'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
    'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
    'TAC':'Y', 'TAT':'Y', 'TAA':'stop', 'TAG':'stop',
    'TGC':'C', 'TGT':'C', 'TGA':'stop', 'TGG':'W'}

def aa_to_prt(g_code):
    prt = ''
    for name in readSeq():
        codon = name[:3]
        prt += g_code[codon]
    print(prt)

aa_to_prt(g_code)

我得到了输出：

TT

这就是您想要的吗？

您似乎正在尝试使用

len（filehandle）

来计算您可以读取文件的距离。但是句柄没有长度——文件可能有长度，但这不是您要查看的。无论如何，API是一个更通用的API，在很多情况下，您打开的流（还）没有长度——系统无法知道何时打开句柄用户将键入多少字节，或者有多少数据包将通过网络到达

相反，约定只是在句柄上迭代，直到它不再生成值。（在幕后，现代Python使用一个迭代器，当没有什么可读取时，它会创建一个

StopIteration

异常。）

您的

readSeq

函数可以正确地执行此操作，但您没有从中返回任何值，因此它只会使用文件，并在文件末尾打开文件句柄，而不留下任何可读取的内容

也许可以试试这样的

def prtSeq(fastahandle):
    global g_code # as defined in your code already
    for line in fastahandle:
        if line.startswith('>'):
            continue
        line = line.strip()
        proteins = []
        for seq in xrange(0, len(line)-1, 3):
            proteins.append(g_code[line[seq:seq+3]])
        print(''.join(proteins))

prtSeq(open('mRNA_database.fasta', 'r'))

另一方面，给变量分配一个空字典是没有用的；您将立即使用新字典覆盖上一个值

更好的设计只会将值返回给调用者进行打印，但我认为您主要感兴趣的是使用尽可能简单的代码完成工作。

不幸的是，问题的格式设置不正确。FASTA格式定义良好，易于谷歌搜索。遗憾的是，您尝试使用解析器是基于错误的假设，基于OP原始问题中的格式问题。。。。尽管只需

yield

ing整个剥离生产线就可以解决这个问题。但是，然后你会想通过三个字符的组在整行上迭代，将每个DNA三元组翻译成相应的蛋白质。你的示例甚至没有对齐成三元组，因此你的代码也因此失败。你能更新一个包含完整三联体的例子吗，或者更新这个问题来解释如果最后一个蛋白质不完整会发生什么？

def prtSeq(fastahandle):
    global g_code # as defined in your code already
    for line in fastahandle:
        if line.startswith('>'):
            continue
        line = line.strip()
        proteins = []
        for seq in xrange(0, len(line)-1, 3):
            proteins.append(g_code[line[seq:seq+3]])
        print(''.join(proteins))

prtSeq(open('mRNA_database.fasta', 'r'))