Python 如何使用BeautifulSoup通过网页抓取获取seq标签数据?

Python 如何使用BeautifulSoup通过网页抓取获取seq标签数据?,python,html,web-scraping,html-table,fasta,Python,Html,Web Scraping,Html Table,Fasta,我是一个网络抓取的新手。我正试图从FASTA获取一个文件,但不知何故我不能。首先,问题从我的span tag开始,我尝试了一些建议,但不适用于我我怀疑可能存在隐私问题 这个类中的FASTA文件,但当我运行此代码时,我只能看到FASTA标题: url = "https://www.ncbi.nlm.nih.gov/nuccore/193211599?report=fasta" res = requests.get(url) soup = BeautifulSoup(res.text, "html.

我是一个网络抓取的新手。我正试图从FASTA获取一个文件,但不知何故我不能。首先,问题从我的span tag开始,我尝试了一些建议,但不适用于我我怀疑可能存在隐私问题

这个类中的FASTA文件,但当我运行此代码时,我只能看到FASTA标题:

url = "https://www.ncbi.nlm.nih.gov/nuccore/193211599?report=fasta"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
fasta_data = soup.find_all("div")
for link in soup.find_all("div", {"class": "seqrprt seqviewer"}):
    print link.text

url = "https://www.ncbi.nlm.nih.gov/nuccore/193211599?report=fasta"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
fasta_data = soup.find_all("div")
for link in soup.find_all("div", {"class": "seqrprt seqviewer"}):
    print link.text

##When I try to reach directly via span, output is empty.
div = soup.find("div", {'id':'viewercontent1'})
spans = div.find_all('span')
for span in spans:
    print span.string

每个刮削作业包括两个阶段:

  • 理解您要刮取的页面。(它是如何工作的?从Ajax加载的内容?重定向?发布?获取?iframes?反垃圾内容?…)

  • 使用您喜爱的框架模拟网页

  • 在处理第1点之前,不要编写一行代码。谷歌网络检查员是你的朋友,使用它吧

    关于您的网页,报告似乎已加载到从以下url获取数据的查看器中:

    $=seqview&maxdownloadsize=1000000

    使用该url,您将获得您的报告