Python 在查看器框架内刮取PDF_Python_Pdf_Web Scraping

Python 在查看器框架内刮取PDF

python pdf web-scraping

Python 在查看器框架内刮取PDF,python,pdf,web-scraping,Python,Pdf,Web Scraping,（此处完成刮网中的begginer）我正在尝试使用python从该网页中提取PDF：问题是上面的URL指向的是查看器（带有日期页参数），而不是PDF文件。我试图检查html代码以直接查看PDF的URL，但无法关于如何找到正确的URL并实现在python中下载它们的方法，有什么帮助吗编辑：稍后，我将把这一点推广到其他日期和页面，通过在此处搜索相关时间段，可以找到完整的日期页面链接列表：最后一个链接重定向到JAVA错误OK，我刚刚纠正了这一点，Tksa同样，如果你在Chrome或Mozi

（此处完成刮网中的begginer）我正在尝试使用python从该网页中提取PDF：

问题是上面的URL指向的是查看器（带有日期页参数），而不是PDF文件。我试图检查html代码以直接查看PDF的URL，但无法

关于如何找到正确的URL并实现在python中下载它们的方法，有什么帮助吗

编辑：

稍后，我将把这一点推广到其他日期和页面，通过在此处搜索相关时间段，可以找到完整的日期页面链接列表：

最后一个链接重定向到JAVA错误OK，我刚刚纠正了这一点，Tksa同样，如果你在Chrome或Mozilla上使用F12，你会发现该页面由许多不同的div一个接一个地组成（对于每个文本行，似乎都是如此）。这可能会给你提示或帮助你找到解决方案。尝试一下，没有帮助。我确实找到了一些东西：在chome上，右键单击PDF图像并选择“检查（ctrl+shift+I）”选项打开的内容看起来像是直接链接的参数。但我不理解它们。不幸的是，您需要对其进行一点工作[但不是很多]。您应该1.使用urllib2库-获取页面内容，2.使用HTMLParser库解析div标记的内容，3.将div标记内容（python列表）放在一起“.append（）”方法）。