Python 在查看器框架内刮取PDF

Python 在查看器框架内刮取PDF,python,pdf,web-scraping,Python,Pdf,Web Scraping,(此处完成刮网中的begginer) 我正在尝试使用python从该网页中提取PDF: 问题是上面的URL指向的是查看器(带有日期页参数),而不是PDF文件。我试图检查html代码以直接查看PDF的URL,但无法 关于如何找到正确的URL并实现在python中下载它们的方法,有什么帮助吗 编辑: 稍后,我将把这一点推广到其他日期和页面,通过在此处搜索相关时间段,可以找到完整的日期页面链接列表:最后一个链接重定向到JAVA错误OK,我刚刚纠正了这一点,Tksa同样,如果你在Chrome或Mozi

(此处完成刮网中的begginer) 我正在尝试使用python从该网页中提取PDF:

问题是上面的URL指向的是查看器(带有日期页参数),而不是PDF文件。我试图检查html代码以直接查看PDF的URL,但无法

关于如何找到正确的URL并实现在python中下载它们的方法,有什么帮助吗

编辑:
稍后,我将把这一点推广到其他日期和页面,通过在此处搜索相关时间段,可以找到完整的日期页面链接列表:

最后一个链接重定向到JAVA错误OK,我刚刚纠正了这一点,Tksa同样,如果你在Chrome或Mozilla上使用F12,你会发现该页面由许多不同的div一个接一个地组成(对于每个文本行,似乎都是如此)。这可能会给你提示或帮助你找到解决方案。尝试一下,没有帮助。我确实找到了一些东西:在chome上,右键单击PDF图像并选择“检查(ctrl+shift+I)”选项打开的内容看起来像是直接链接的参数。但我不理解它们。不幸的是,您需要对其进行一点工作[但不是很多]。您应该1.使用urllib2库-获取页面内容,2.使用HTMLParser库解析div标记的内容,3.将div标记内容(python列表)放在一起“.append()”方法)。