Python Webscraping：从javascript链接下载pdf_Python_Web Scraping_Python Requests

Python Webscraping：从javascript链接下载pdf

python web-scraping

Python Webscraping：从javascript链接下载pdf,python,web-scraping,python-requests,Python,Web Scraping,Python Requests,我正在使用python中的requests库，试图抓取一个拥有大量.pdf格式公共报告和文档的网站。我已经在其他网站上成功地做到了这一点，但我在这一点上遇到了一个障碍：链接是javascript函数（对象？我对javascript一无所知），它将我重定向到另一个页面，然后该页面有原始的pdf链接。大概是这样的： import requests from bs4 import BeautifulSoup as bs url = 'page with search results.com' htm

我正在使用

python

中的

requests

库，试图抓取一个拥有大量.pdf格式公共报告和文档的网站。我已经在其他网站上成功地做到了这一点，但我在这一点上遇到了一个障碍：链接是

javascript

函数（对象？我对javascript一无所知），它将我重定向到另一个页面，然后该页面有原始的pdf链接。大概是这样的：

import requests
from bs4 import BeautifulSoup as bs

url = 'page with search results.com'
html = requests.get(url).text
soup = bs(html)
obj_list = soup.findAll('a')
for a in obj_list: 
    link = a['href']
    print(link)

>> javascript:readfile2("F","2201","2017_2201_20170622F14.pdf")

理想情况下，我想找到一种方法，找到什么网址，这将导航到。我可以使用

selenium

并点击链接，但是有很多文档，这需要大量的时间和资源。对于

请求

或类似的库，有没有办法做到这一点

编辑：看起来每个链接都指向同一个url，该url根据您单击的链接加载不同的pdf。这让我觉得在

请求中没有办法做到这一点，但我仍然对基于非硒元素的东西抱有希望。
这些PDF文件可能存在于默认url上
您需要找到url，在单击“超链接”后，这些pdf文件将在该url上打开
一旦你得到那个url，你需要从锚文本解析pdf名称
然后，将pdf名称附加到url（其中包含pdf）。并请求最终url。
链接有吗？没有。完整的html是