如何在抓取站点时执行返回的响应Javascript?
我正在清理一个网站,当我尝试使用Scrapy进行清理时,该网站会抛出以下错误: 在调试了一段时间后,我发现返回的页面包含内联Javascript代码,该代码生成一个独特的cookie(使用非常复杂的机制生成,该机制在HTML中编码,然后使用Javascript解码并运行)。设置cookie后,使用如何在抓取站点时执行返回的响应Javascript?,javascript,python,cookies,web-scraping,scrapy,Javascript,Python,Cookies,Web Scraping,Scrapy,我正在清理一个网站,当我尝试使用Scrapy进行清理时,该网站会抛出以下错误: 在调试了一段时间后,我发现返回的页面包含内联Javascript代码,该代码生成一个独特的cookie(使用非常复杂的机制生成,该机制在HTML中编码,然后使用Javascript解码并运行)。设置cookie后,使用window.location.reload(true)刷新页面,发送cookie并返回所需页面 但是,由于无法在HTML响应中运行标记,因此无法获得唯一的cookie值 有人遇到过这样的事情吗?我能
window.location.reload(true)
刷新页面,发送cookie并返回所需页面
但是,由于无法在HTML响应中运行
标记,因此无法获得唯一的cookie值
有人遇到过这样的事情吗?我能做些什么来解决这个问题呢?是的,这是很常见的,你的选择是找出如何复制cookie并将其添加到scrapy头中,或者使用浏览器仿真器,如
selenium
或Ok great。它们能让我读取cookie值/将其返回到python脚本吗?如果足够简单的话,还可以在脚本内部用python重写这段代码。您还可以使用subprocess
模块将代码通过管道传输到node.js或任何其他javascript解释器?