Python Can'；无法读取所有HTML（网页抓取）_Python_Html_Url_Web Scraping_Beautifulsoup

Python Can'；无法读取所有HTML（网页抓取）

python html url web-scraping

Python Can'；无法读取所有HTML（网页抓取）,python,html,url,web-scraping,beautifulsoup,Python,Html,Url,Web Scraping,Beautifulsoup,我试图使用BeautifulSoup和requests库从以HTML形式呈现的数据表中提取数据，但无法获取所有HTML代码我的代码如下。为了简洁起见，我没有包括输出 from urllib.request import Request, urlopen from urllib.error import URLError, HTTPError url = 'https://www2.susep.gov.br/safe/Corretores/pesquisa.html' headers = {'

我试图使用BeautifulSoup和requests库从以HTML形式呈现的数据表中提取数据，但无法获取所有HTML代码

我的代码如下。为了简洁起见，我没有包括输出

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

url = 'https://www2.susep.gov.br/safe/Corretores/pesquisa.html'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

#try:

#Opening 
req = Request(url, headers = headers)

#Open url
response = urlopen(req)

#Read HTML
print(response.read())

但是代码无法从HTML中读取

部分。页面上存在尚未读取的表，该表位于中

它看起来像是用来编译html的。也许可以尝试从浏览器中的检查工具中进行刮取？

数据是通过JS动态生成的。如果您进入浏览器并在开发工具中禁用Javascript，您将看到该网页基本上是空的

您需要使用类似的工具（通过某些web API）查找数据的获取位置，或者使用类似的工具运行Javascript加载HTML。

它是由JS动态创建的吗？我不能说，我对web抓取非常陌生。你怎么能检查呢？看看这个页面，看看是否有一个脚本标记正在向DOM中注入一些东西。或者查看页面，发现元素在没有JS的情况下是不可见的，就像您在这里所做的那样。您可以在禁用JS的情况下运行站点，并查看元素是否显示。如果数据是通过AJAX传入的，您可以查看开发工具中的“请求”选项卡，找出数据来自的端点在哪里，并尝试自己点击它以绕过HTML。重复