Post Web抓取-下载Zip文件

Post Web抓取-下载Zip文件,post,web-scraping,zipfile,Post,Web Scraping,Zipfile,我正在尝试从一个网站下载一堆PDF文件,这些文件与python捆绑在一个zip文件中。要下载zip文件,我单击一个下载按钮,弹出一个窗口(我认为这对问题不重要,但为了完整性,我将包含它)。按下下载按钮并出现弹出窗口时,Chrome会显示: 然后,我必须单击弹出窗口上的下载按钮,才能真正开始下载。以下是: 我很有信心,第一个要求是唯一重要的要求。如果我们查看此POST请求的标题,我们会看到: 除了下载的Ziptoken之外,此请求所需的所有POST数据都可以从上一个HTML页面中删除。只

我正在尝试从一个网站下载一堆PDF文件,这些文件与python捆绑在一个zip文件中。要下载zip文件,我单击一个下载按钮,弹出一个窗口(我认为这对问题不重要,但为了完整性,我将包含它)。按下下载按钮并出现弹出窗口时,Chrome会显示:

然后,我必须单击弹出窗口上的下载按钮,才能真正开始下载。以下是:

我很有信心,第一个要求是唯一重要的要求。如果我们查看此POST请求的标题,我们会看到:

除了下载的Ziptoken之外,此请求所需的所有POST数据都可以从上一个HTML页面中删除。只有在我单击弹出窗口上的下载按钮后,才会生成/添加到html表单中,您可以看到它在响应标题中作为cookie返回给我


总而言之。为了让python脚本为我下载zip文件,我相信我必须模拟这个POST请求,但我没有做到这一点,因为zip令牌最初是不可访问的。如果这让人困惑,我道歉。如果需要更多信息,请告诉我。

我在原始问题中找不到的下载Ziptoken POST数据原来是一个unix时间戳,这对于我为什么在HTML源代码中找不到它更有意义。我假设它是在发送POST请求后由某个JS脚本生成的。为了编写python代码,我刚刚生成了一个unix时间戳

timeStamp = math.ceil(time.time()*1000)

尝试在中这样的源中搜索令牌。该示例仅显示了该方法。@谢谢!我看了这些例子,如果你有时间,我给你发了一封电子邮件,里面有一些具体的问题。