Python-通过iFrames直接链接阻塞,我仍然可以获得二进制文件吗?

Python-通过iFrames直接链接阻塞,我仍然可以获得二进制文件吗?,python,web-scraping,Python,Web Scraping,我有一个scraper脚本,可以从出版商网站上提取二进制内容。它的建立是为了取代人工保存数百个个人pdf文件的做法,而其他明智的同事则必须这样做 这些网站是基于凭据的,我们拥有收集此内容的正确凭据和权限 我遇到了一个在iFrame中包含pdf文件的网站 我可以从HTML中提取内容URL。当我将URL提供给内容抓取器时,我收集了一小块HTML,上面写着:禁止:不允许直接文件请求 我可以将URL直接输入浏览器,PDF文件可以正确解析 我假设有一个会话cookie或其他东西,我对请求发送的术语不是10

我有一个scraper脚本,可以从出版商网站上提取二进制内容。它的建立是为了取代人工保存数百个个人pdf文件的做法,而其他明智的同事则必须这样做

这些网站是基于凭据的,我们拥有收集此内容的正确凭据和权限

我遇到了一个在iFrame中包含pdf文件的网站

我可以从HTML中提取内容URL。当我将URL提供给内容抓取器时,我收集了一小块HTML,上面写着:禁止:不允许直接文件请求

我可以将URL直接输入浏览器,PDF文件可以正确解析

我假设有一个会话cookie或其他东西,我对请求发送的术语不是100%满意,因为它表明GET请求来自一个实时会话,而不是远程链接

我查看了引用URL,看到这些不同的URL指向我在一天的测试中收集的同一篇文章,我从URL中删除了标识:-

这表明URL中存在唯一的内容,需要与其他内容关联以绕过直接链接检测器


有没有关于如何解决这个问题的建议

好的。答案是Cookies和headers。我通过httpfox收集了get header信息,并在脚本中创建了一个相同的header对象,然后从request.cookie中获取会话ID,并随每个请求一起发送cookie

为了更好地衡量,我还将用户代理设置为已知的工作浏览器代理,以防服务器检查代理详细信息

很好