Python 如何使用BeautifulSoup通过网页抓取获取seq标签数据？_Python_Html_Web Scraping_Html Table_Fasta

Python 如何使用BeautifulSoup通过网页抓取获取seq标签数据？

python html web-scraping

Python 如何使用BeautifulSoup通过网页抓取获取seq标签数据？,python,html,web-scraping,html-table,fasta,Python,Html,Web Scraping,Html Table,Fasta,我是一个网络抓取的新手。我正试图从FASTA获取一个文件，但不知何故我不能。首先，问题从我的span tag开始，我尝试了一些建议，但不适用于我我怀疑可能存在隐私问题这个类中的FASTA文件，但当我运行此代码时，我只能看到FASTA标题： url = "https://www.ncbi.nlm.nih.gov/nuccore/193211599?report=fasta" res = requests.get(url) soup = BeautifulSoup(res.text, "html.

我是一个网络抓取的新手。我正试图从FASTA获取一个文件，但不知何故我不能。首先，问题从我的span tag开始，我尝试了一些建议，但不适用于我我怀疑可能存在隐私问题

这个类中的FASTA文件，但当我运行此代码时，我只能看到FASTA标题：

url = "https://www.ncbi.nlm.nih.gov/nuccore/193211599?report=fasta"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
fasta_data = soup.find_all("div")
for link in soup.find_all("div", {"class": "seqrprt seqviewer"}):
    print link.text

url = "https://www.ncbi.nlm.nih.gov/nuccore/193211599?report=fasta"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
fasta_data = soup.find_all("div")
for link in soup.find_all("div", {"class": "seqrprt seqviewer"}):
    print link.text

##When I try to reach directly via span, output is empty.
div = soup.find("div", {'id':'viewercontent1'})
spans = div.find_all('span')
for span in spans:
    print span.string

每个刮削作业包括两个阶段：

理解您要刮取的页面。（它是如何工作的？从Ajax加载的内容？重定向？发布？获取？iframes？反垃圾内容？…）

使用您喜爱的框架模拟网页

在处理第1点之前，不要编写一行代码。谷歌网络检查员是你的朋友，使用它吧

关于您的网页，报告似乎已加载到从以下url获取数据的查看器中：

$=seqview&maxdownloadsize=1000000

使用该url，您将获得您的报告