Python 抓取Java网页_Python_Beautifulsoup_Screen Scraping

Python 抓取Java网页

python

Python 抓取Java网页,python,beautifulsoup,screen-scraping,Python,Beautifulsoup,Screen Scraping,我已经找到并阅读了不少关于刮削的文章，但作为一个初学者，我不知怎么地不知所措。我想从表中获取数据我尝试了beautifulsoup，可以得到可用选项的列表，请参见soup对象中的选项我现在很难获得表中的实际内容/如何访问每个日期/选项，并将其保存到数据库中从哪里开始有什么建议吗下面是获取选项的代码： from bs4 import BeautifulSoup import requests resp = requests.get("https://www.senamhi.gob.pe/

我已经找到并阅读了不少关于刮削的文章，但作为一个初学者，我不知怎么地不知所措。我想从表中获取数据

我尝试了beautifulsoup，可以得到可用选项的列表，请参见soup对象中的选项

我现在很难获得表中的实际内容/如何访问每个日期/选项，并将其保存到数据库中

从哪里开始有什么建议吗

下面是获取选项的代码：

from bs4 import BeautifulSoup
import requests
resp = requests.get("https://www.senamhi.gob.pe/mapas/mapa-estaciones/_dat_esta_tipo.php?estaciones=472CA750")

html = resp.content 
soup = BeautifulSoup(html)

option_tags = soup.find_all("option")

当我查看您给定的url时，我认为该表嵌入了给定的网站：

 <iframe src="_dat_esta_tipo02.php?estaciones=472CA750&tipo=SUT&CBOFiltro=201902&t_e=M" name="contenedor" width="600" marginwidth="0" height="560" marginheight="0" scrolling="NO" align="center"  frameborder="0" id="interior"></iframe>

输出：

以上代码仅获取日期。如果要访问给定日期的所有元素，可以创建一个数组并附加它。只需更改以下代码即可

array = []
for a in option_tags:
    array.append(a.text.split())

print array

伟大的这是可行的：还有一个问题，因为这是我的基本问题：您是如何找到特定站点和日期的url的？由于浏览器仅显示站点名称…当我单击“查看源”时，其中有一个iframe。iframe：iframe用于在网页中显示网页。因此，我认为该表是另一个查看页面，但显示在您的url@SamuelMüller中

Día/mes/año
Prom
01-02-2019
02-02-2019
03-02-2019
04-02-2019
05-02-2019
06-02-2019
07-02-2019
08-02-2019
09-02-2019
10-02-2019
11-02-2019
12-02-2019
13-02-2019
14-02-2019
15-02-2019
16-02-2019
17-02-2019
18-02-2019

array = []
for a in option_tags:
    array.append(a.text.split())

print array