Python Can';无法读取所有HTML(网页抓取)

Python Can';无法读取所有HTML(网页抓取),python,html,url,web-scraping,beautifulsoup,Python,Html,Url,Web Scraping,Beautifulsoup,我试图使用BeautifulSoup和requests库从以HTML形式呈现的数据表中提取数据,但无法获取所有HTML代码 我的代码如下。为了简洁起见,我没有包括输出 from urllib.request import Request, urlopen from urllib.error import URLError, HTTPError url = 'https://www2.susep.gov.br/safe/Corretores/pesquisa.html' headers = {'

我试图使用BeautifulSoup和requests库从以HTML形式呈现的数据表中提取数据,但无法获取所有HTML代码

我的代码如下。为了简洁起见,我没有包括输出

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

url = 'https://www2.susep.gov.br/safe/Corretores/pesquisa.html'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

#try:

#Opening 
req = Request(url, headers = headers)

#Open url
response = urlopen(req)

#Read HTML
print(response.read())
但是代码无法从HTML中读取
部分。页面上存在尚未读取的表,该表位于中


它看起来像是用来编译html的。也许可以尝试从浏览器中的检查工具中进行刮取?

数据是通过JS动态生成的。如果您进入浏览器并在开发工具中禁用Javascript,您将看到该网页基本上是空的


您需要使用类似的工具(通过某些web API)查找数据的获取位置,或者使用类似的工具运行Javascript加载HTML。

它是由JS动态创建的吗?我不能说,我对web抓取非常陌生。你怎么能检查呢?看看这个页面,看看是否有一个脚本标记正在向DOM中注入一些东西。或者查看页面,发现元素在没有JS的情况下是不可见的,就像您在这里所做的那样。您可以在禁用JS的情况下运行站点,并查看元素是否显示。如果数据是通过AJAX传入的,您可以查看开发工具中的“请求”选项卡,找出数据来自的端点在哪里,并尝试自己点击它以绕过HTML。重复