Python Webscraping:从javascript链接下载pdf

Python Webscraping:从javascript链接下载pdf,python,web-scraping,python-requests,Python,Web Scraping,Python Requests,我正在使用python中的requests库,试图抓取一个拥有大量.pdf格式公共报告和文档的网站。我已经在其他网站上成功地做到了这一点,但我在这一点上遇到了一个障碍:链接是javascript函数(对象?我对javascript一无所知),它将我重定向到另一个页面,然后该页面有原始的pdf链接。大概是这样的: import requests from bs4 import BeautifulSoup as bs url = 'page with search results.com' htm

我正在使用
python
中的
requests
库,试图抓取一个拥有大量.pdf格式公共报告和文档的网站。我已经在其他网站上成功地做到了这一点,但我在这一点上遇到了一个障碍:链接是
javascript
函数(对象?我对javascript一无所知),它将我重定向到另一个页面,然后该页面有原始的pdf链接。大概是这样的:

import requests
from bs4 import BeautifulSoup as bs

url = 'page with search results.com'
html = requests.get(url).text
soup = bs(html)
obj_list = soup.findAll('a')
for a in obj_list: 
    link = a['href']
    print(link)

>> javascript:readfile2("F","2201","2017_2201_20170622F14.pdf")
理想情况下,我想找到一种方法,找到什么网址,这将导航到。我可以使用
selenium
并点击链接,但是有很多文档,这需要大量的时间和资源。对于
请求
或类似的库,有没有办法做到这一点


编辑:看起来每个链接都指向同一个url,该url根据您单击的链接加载不同的pdf。这让我觉得在
请求中没有办法做到这一点,但我仍然对基于非硒元素的东西抱有希望。

这些PDF文件可能存在于默认url上

您需要找到url,在单击“超链接”后,这些pdf文件将在该url上打开

一旦你得到那个url,你需要从锚文本解析pdf名称


然后,将pdf名称附加到url(其中包含pdf)。并请求最终url。

链接有吗?没有。完整的html是