Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/291.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在python中将字节类型文件转换为可用格式_Python_Class_Byte_Sequence_Analysis - Fatal编程技术网

在python中将字节类型文件转换为可用格式

在python中将字节类型文件转换为可用格式,python,class,byte,sequence,analysis,Python,Class,Byte,Sequence,Analysis,我必须将下面链接(html页面)中的表格读入一个dict(),然后处理它。然而,由于我给出了下面的代码,该表看起来仍然很笨拙,我不知道从哪里开始着手,使其成为各个氨基酸密码子序列(例如AGU)的字典。有什么办法让它看起来更好吗?可能是数据帧之类的东西或任何其他建议?请帮忙。谢谢 link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N" f = urllib.requ

我必须将下面链接(html页面)中的表格读入一个dict(),然后处理它。然而,由于我给出了下面的代码,该表看起来仍然很笨拙,我不知道从哪里开始着手,使其成为各个氨基酸密码子序列(例如AGU)的字典。有什么办法让它看起来更好吗?可能是数据帧之类的东西或任何其他建议?请帮忙。谢谢

link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N"
f = urllib.request.urlopen(link)
myfile = f.read()
s = myfile.decode()
s.strip(" ")

如果您已查看页面
http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N
您可能已经注意到,它不仅包含您想要的密码子序列,还包含大量HTML。要仅提取密码子,最好的方法可能是使用BeautifulSoup:

from bs4 import BeautifulSoup
link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N"
f = urllib.request.urlopen(link)
myfile = f.read()
s = myfile.decode()
codons = BeautifulSoup(s).find('pre').text
现在,您可能需要进一步处理这个字符串,以获得所需的格式-dict、list、dataframe等等。假设你只是想要一本字典,既然你提到了字典:

import re
codons_dict = { t[0]: t[1] for t in sorted(re.findall(r'(\w{3})\s+\w\s+(\S+)\s+\S+\s+[(]\d+[)]', codons)) }

如果您已查看页面
http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N
您可能已经注意到,它不仅包含您想要的密码子序列,还包含大量HTML。要仅提取密码子,最好的方法可能是使用BeautifulSoup:

from bs4 import BeautifulSoup
link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N"
f = urllib.request.urlopen(link)
myfile = f.read()
s = myfile.decode()
codons = BeautifulSoup(s).find('pre').text
现在,您可能需要进一步处理这个字符串,以获得所需的格式-dict、list、dataframe等等。假设你只是想要一本字典,既然你提到了字典:

import re
codons_dict = { t[0]: t[1] for t in sorted(re.findall(r'(\w{3})\s+\w\s+(\S+)\s+\S+\s+[(]\d+[)]', codons)) }


接收到的原始数据和期望的输出是什么?请给出一些示例,并向我们展示您迄今为止在处理数据方面所做的尝试!原始数据仅为该html链接。我得把它编成字典。上面的代码是我为在jupyter笔记本中打开数据而编写的,并最终将其转换为类“str”。这是一个很大的段落。我只是想知道是否有更好的方法来打开和管理它。在堆栈溢出上,与问题相关的所有内容都必须包含在问题本身中。没有链接也没有截图。很抱歉,我的任务是只处理这个html文件,因此我给出了那个链接。收到的原始数据和想要的输出是什么?请给出一些示例,并向我们展示您迄今为止在处理数据方面所做的尝试!原始数据仅为该html链接。我得把它编成字典。上面的代码是我为在jupyter笔记本中打开数据而编写的,并最终将其转换为类“str”。这是一个很大的段落。我只是想知道是否有更好的方法来打开和管理它。在堆栈溢出上,与问题相关的所有内容都必须包含在问题本身中。没有链接,也没有截图。很抱歉,我的任务是只处理这个html文件,因此我给了那个链接。你太棒了。我昨天花了一整天的时间才弄明白。“美丽的群像”并没有被提及。谢谢你的指导。嗨。如果我想打印html页面第一列和第三列中给出的密码子和概率,该怎么办?此外,我还需要所有64个密码子(三联体),甚至那些形成氨基酸的密码子都用(*)表示。我给出的代码是-“{t[0]:t[2]表示re.findall(r'(\w{3})\s+(\w)*(\w+),密码子)}”但只打印密码子,不打印使用此代码的概率。请提供帮助。将
\w
更改为
\S
以匹配任何非空格字符(不仅仅是字母),包括
*
。不起作用。我想要这样的字典。“GCG':“0.11”,“GAG':“0.58”,“GGG':“0.25”,“UAA':“0.30'”,其中“UAA”已经*但仍然会与其他词一起包含在字典中。我的代码是这样的——“GCG:”,“GAG:”,“GGG:”,“UAA:“*”。看看修改后的答案(就在最后一行)。你太棒了。我昨天花了整整一天的时间才弄明白。“漂亮极了“没有人提到过。谢谢你的指导。嗨。如果我想打印html页面第一列和第三列中给出的密码子和概率,该怎么办?此外,我还需要所有64个密码子(三联体),甚至那些形成氨基酸的密码子都用(*)表示。我给出的代码是-“{t[0]:t[2]表示re.findall(r'(\w{3})\s+(\w)*(\w+),密码子)}”但只打印密码子,不打印使用此代码的概率。请提供帮助。将
\w
更改为
\S
以匹配任何非空格字符(不仅仅是字母),包括
*
。不起作用。我想要这样的字典。“GCG':“0.11”,“GAG':“0.58”,“GGG':“0.25”,“UAA':“0.30'”,其中“UAA”已经*但仍然会与其他词一起包含在字典中。我的代码给出了类似这样的内容——“GCG”:“GAG”:“GGG”:“UAA”:“*”。看看修改后的答案(就在最后一行)。