Python-通过iFrames直接链接阻塞，我仍然可以获得二进制文件吗？_Python_Web Scraping

Python-通过iFrames直接链接阻塞，我仍然可以获得二进制文件吗？

python web-scraping

Python-通过iFrames直接链接阻塞，我仍然可以获得二进制文件吗？,python,web-scraping,Python,Web Scraping,我有一个scraper脚本，可以从出版商网站上提取二进制内容。它的建立是为了取代人工保存数百个个人pdf文件的做法，而其他明智的同事则必须这样做这些网站是基于凭据的，我们拥有收集此内容的正确凭据和权限我遇到了一个在iFrame中包含pdf文件的网站我可以从HTML中提取内容URL。当我将URL提供给内容抓取器时，我收集了一小块HTML，上面写着：禁止：不允许直接文件请求我可以将URL直接输入浏览器，PDF文件可以正确解析我假设有一个会话cookie或其他东西，我对请求发送的术语不是10

我有一个scraper脚本，可以从出版商网站上提取二进制内容。它的建立是为了取代人工保存数百个个人pdf文件的做法，而其他明智的同事则必须这样做

这些网站是基于凭据的，我们拥有收集此内容的正确凭据和权限

我遇到了一个在iFrame中包含pdf文件的网站

我可以从HTML中提取内容URL。当我将URL提供给内容抓取器时，我收集了一小块HTML，上面写着：禁止：不允许直接文件请求

我可以将URL直接输入浏览器，PDF文件可以正确解析

我假设有一个会话cookie或其他东西，我对请求发送的术语不是100%满意，因为它表明GET请求来自一个实时会话，而不是远程链接

我查看了引用URL，看到这些不同的URL指向我在一天的测试中收集的同一篇文章，我从URL中删除了标识：-

这表明URL中存在唯一的内容，需要与其他内容关联以绕过直接链接检测器

有没有关于如何解决这个问题的建议

好的。答案是Cookies和headers。我通过httpfox收集了get header信息，并在脚本中创建了一个相同的header对象，然后从request.cookie中获取会话ID，并随每个请求一起发送cookie

为了更好地衡量，我还将用户代理设置为已知的工作浏览器代理，以防服务器检查代理详细信息

很好