Python 抓取Java网页

Python 抓取Java网页,python,beautifulsoup,screen-scraping,Python,Beautifulsoup,Screen Scraping,我已经找到并阅读了不少关于刮削的文章,但作为一个初学者,我不知怎么地不知所措。 我想从表中获取数据 我尝试了beautifulsoup,可以得到可用选项的列表,请参见soup对象中的选项 我现在很难获得表中的实际内容/如何访问每个日期/选项,并将其保存到数据库中 从哪里开始有什么建议吗 下面是获取选项的代码: from bs4 import BeautifulSoup import requests resp = requests.get("https://www.senamhi.gob.pe/

我已经找到并阅读了不少关于刮削的文章,但作为一个初学者,我不知怎么地不知所措。 我想从表中获取数据

我尝试了beautifulsoup,可以得到可用选项的列表,请参见soup对象中的选项

我现在很难获得表中的实际内容/如何访问每个日期/选项,并将其保存到数据库中

从哪里开始有什么建议吗

下面是获取选项的代码:

from bs4 import BeautifulSoup
import requests
resp = requests.get("https://www.senamhi.gob.pe/mapas/mapa-estaciones/_dat_esta_tipo.php?estaciones=472CA750")

html = resp.content 
soup = BeautifulSoup(html)

option_tags = soup.find_all("option")

当我查看您给定的url时,我认为该表嵌入了给定的网站:

 <iframe src="_dat_esta_tipo02.php?estaciones=472CA750&tipo=SUT&CBOFiltro=201902&t_e=M" name="contenedor" width="600" marginwidth="0" height="560" marginheight="0" scrolling="NO" align="center"  frameborder="0" id="interior"></iframe>
输出:

以上代码仅获取日期。如果要访问给定日期的所有元素,可以创建一个数组并附加它。只需更改以下代码即可

array = []
for a in option_tags:
    array.append(a.text.split())

print array

伟大的这是可行的:还有一个问题,因为这是我的基本问题:您是如何找到特定站点和日期的url的?由于浏览器仅显示站点名称…当我单击“查看源”时,其中有一个iframe。iframe:iframe用于在网页中显示网页。因此,我认为该表是另一个查看页面,但显示在您的url@SamuelMüller中
Día/mes/año
Prom
01-02-2019
02-02-2019
03-02-2019
04-02-2019
05-02-2019
06-02-2019
07-02-2019
08-02-2019
09-02-2019
10-02-2019
11-02-2019
12-02-2019
13-02-2019
14-02-2019
15-02-2019
16-02-2019
17-02-2019
18-02-2019
array = []
for a in option_tags:
    array.append(a.text.split())

print array