在python中将字节类型文件转换为可用格式_Python_Class_Byte_Sequence_Analysis

在python中将字节类型文件转换为可用格式

python class

在python中将字节类型文件转换为可用格式,python,class,byte,sequence,analysis,Python,Class,Byte,Sequence,Analysis,我必须将下面链接（html页面）中的表格读入一个dict（），然后处理它。然而，由于我给出了下面的代码，该表看起来仍然很笨拙，我不知道从哪里开始着手，使其成为各个氨基酸密码子序列（例如AGU）的字典。有什么办法让它看起来更好吗？可能是数据帧之类的东西或任何其他建议？请帮忙。谢谢 link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N" f = urllib.requ

我必须将下面链接（html页面）中的表格读入一个dict（），然后处理它。然而，由于我给出了下面的代码，该表看起来仍然很笨拙，我不知道从哪里开始着手，使其成为各个氨基酸密码子序列（例如AGU）的字典。有什么办法让它看起来更好吗？可能是数据帧之类的东西或任何其他建议？请帮忙。谢谢

link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N"
f = urllib.request.urlopen(link)
myfile = f.read()
s = myfile.decode()
s.strip(" ")

如果您已查看页面

http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N

您可能已经注意到，它不仅包含您想要的密码子序列，还包含大量HTML。要仅提取密码子，最好的方法可能是使用BeautifulSoup：

from bs4 import BeautifulSoup
link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N"
f = urllib.request.urlopen(link)
myfile = f.read()
s = myfile.decode()
codons = BeautifulSoup(s).find('pre').text

现在，您可能需要进一步处理这个字符串，以获得所需的格式-dict、list、dataframe等等。假设你只是想要一本字典，既然你提到了字典：

import re
codons_dict = { t[0]: t[1] for t in sorted(re.findall(r'(\w{3})\s+\w\s+(\S+)\s+\S+\s+[(]\d+[)]', codons)) }

如果您已查看页面

http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N

您可能已经注意到，它不仅包含您想要的密码子序列，还包含大量HTML。要仅提取密码子，最好的方法可能是使用BeautifulSoup：

from bs4 import BeautifulSoup
link = "http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=9606&aa=1&style=N"
f = urllib.request.urlopen(link)
myfile = f.read()
s = myfile.decode()
codons = BeautifulSoup(s).find('pre').text

现在，您可能需要进一步处理这个字符串，以获得所需的格式-dict、list、dataframe等等。假设你只是想要一本字典，既然你提到了字典：

import re
codons_dict = { t[0]: t[1] for t in sorted(re.findall(r'(\w{3})\s+\w\s+(\S+)\s+\S+\s+[(]\d+[)]', codons)) }

接收到的原始数据和期望的输出是什么？请给出一些示例，并向我们展示您迄今为止在处理数据方面所做的尝试！原始数据仅为该html链接。我得把它编成字典。上面的代码是我为在jupyter笔记本中打开数据而编写的，并最终将其转换为类“str”。这是一个很大的段落。我只是想知道是否有更好的方法来打开和管理它。在堆栈溢出上，与问题相关的所有内容都必须包含在问题本身中。没有链接也没有截图。很抱歉，我的任务是只处理这个html文件，因此我给出了那个链接。收到的原始数据和想要的输出是什么？请给出一些示例，并向我们展示您迄今为止在处理数据方面所做的尝试！原始数据仅为该html链接。我得把它编成字典。上面的代码是我为在jupyter笔记本中打开数据而编写的，并最终将其转换为类“str”。这是一个很大的段落。我只是想知道是否有更好的方法来打开和管理它。在堆栈溢出上，与问题相关的所有内容都必须包含在问题本身中。没有链接，也没有截图。很抱歉，我的任务是只处理这个html文件，因此我给了那个链接。你太棒了。我昨天花了一整天的时间才弄明白。“美丽的群像”并没有被提及。谢谢你的指导。嗨。如果我想打印html页面第一列和第三列中给出的密码子和概率，该怎么办？此外，我还需要所有64个密码子（三联体），甚至那些形成氨基酸的密码子都用（*）表示。我给出的代码是-“{t[0]：t[2]表示re.findall（r'（\w{3}）\s+（\w）*（\w+），密码子）}”但只打印密码子，不打印使用此代码的概率。请提供帮助。将

\w

更改为

\S

以匹配任何非空格字符（不仅仅是字母），包括

。不起作用。我想要这样的字典。“GCG'：“0.11”，“GAG'：“0.58”，“GGG'：“0.25”，“UAA'：“0.30'”，其中“UAA”已经*但仍然会与其他词一起包含在字典中。我的代码是这样的——“GCG:”，“GAG:”，“GGG:”，“UAA:“*”。看看修改后的答案（就在最后一行）。你太棒了。我昨天花了整整一天的时间才弄明白。“漂亮极了“没有人提到过。谢谢你的指导。嗨。如果我想打印html页面第一列和第三列中给出的密码子和概率，该怎么办？此外，我还需要所有64个密码子（三联体），甚至那些形成氨基酸的密码子都用（*）表示。我给出的代码是-“{t[0]：t[2]表示re.findall（r'（\w{3}）\s+（\w）*（\w+），密码子）}”但只打印密码子，不打印使用此代码的概率。请提供帮助。将

\w

更改为

\S

以匹配任何非空格字符（不仅仅是字母），包括

。不起作用。我想要这样的字典。“GCG'：“0.11”，“GAG'：“0.58”，“GGG'：“0.25”，“UAA'：“0.30'”，其中“UAA”已经*但仍然会与其他词一起包含在字典中。我的代码给出了类似这样的内容——“GCG”：“GAG”：“GGG”：“UAA”：“*”。看看修改后的答案（就在最后一行）。