Python 如何获取只需单击按钮即可访问的页面源

Python 如何获取只需单击按钮即可访问的页面源,python,parsing,Python,Parsing,我正在用python编写一个脚本,每天下载在网站上发布的PDF 我在抓取页面和下载文件方面没有问题。 我目前面临的问题是因为该网站有更多的页面,我知道你在想什么;)但如果网站的结构是这样的,那就不会有问题了: page 1 -> www.example.com/page1 page 2 -> www.example.com/page2 ... 但问题是,不幸的是,当我按页码来更改页面时 URL字段中不会发生任何事情 我唯一能在控制台中找到的是这个事件: 我需要单击的页面按钮如下

我正在用python编写一个脚本,每天下载在网站上发布的PDF

我在抓取页面和下载文件方面没有问题。 我目前面临的问题是因为该网站有更多的页面,我知道你在想什么;)但如果网站的结构是这样的,那就不会有问题了:

page 1 -> www.example.com/page1
page 2 -> www.example.com/page2 ...
但问题是,不幸的是,当我按页码来更改页面时

URL字段中不会发生任何事情

我唯一能在控制台中找到的是这个事件:

我需要单击的页面按钮如下:

<nav class="text-center">
    <ul class="pagination pagination-sm files_paging"><li><a data-page="1" aria-label="Previous"><span aria-hidden="true">«</span></a></li><li class="active"><a data-page="1">1</a></li><li><a data-page="2">2</a></li><li><a data-page="3">3</a></li><li><a data-page="4">4</a></li><li class="disabled"><a data-page="4"><span aria-hidden="true">...</span></a></li><li><a data-page="9">9</a></li><li><a data-page="2" aria-label="Next"><span aria-hidden="true">»</span></a></li></ul>
</nav>

  • 1
  • 2
  • 3
  • 4
  • .
  • 9

有人有什么想法吗?

我假设提到的页面使用JavaScript框架来显示内容。您应该尝试以下选项

  • 猜猜URL的模式
  • 下载页面的前端部分(HTML和JavaScript文件),并搜索URL生成或检索的点
  • 如果您对类似的任务感兴趣,您应该尝试或使用其他类似的基于浏览器的可编程测试工具

您好,谢谢您的回答!“猜测URL的模式。”已经尝试过,但没有成功:(“如果你对类似的任务感兴趣,你应该尝试Selenium或其他类似的基于浏览器的可编程测试工具。”我不能使用broswer。“下载页面的前端部分(HTML和JavaScript文件)然后搜索URL生成或检索的点。“你能用更多的细节解释一下吗?你可以使用这里提到的curl或wget:。我担心wget将不起作用,即使使用选项-r,因为没有后续链接