Web scraping JSoup自动跟踪javascript重定向

Web scraping JSoup自动跟踪javascript重定向,web-scraping,web-crawler,jsoup,Web Scraping,Web Crawler,Jsoup,我正在使用JSoup对站点进行爬网,但它使用javascript重定向到新页面。我确信它没有使用302重定向,因为当我关闭浏览器的javascript时,它将停止重定向。有没有一种方法允许JSoup自动跟踪javascript重定向?如果没有,还有哪些替代方案允许javascript重定向?Jsoup是一个解析器。它不包含javascript执行引擎,因此无法执行javascript。 为了执行javascript,您必须使用 另一种选择是解析负责重定向和提取url的javascript(作为文

我正在使用JSoup对站点进行爬网,但它使用javascript重定向到新页面。我确信它没有使用302重定向,因为当我关闭浏览器的javascript时,它将停止重定向。有没有一种方法允许JSoup自动跟踪javascript重定向?如果没有,还有哪些替代方案允许javascript重定向?

Jsoup是一个解析器。它不包含javascript执行引擎,因此无法执行javascript。 为了执行javascript,您必须使用


另一种选择是解析负责重定向和提取url的javascript(作为文本)。之后,你只需做你通常做的事情,以刮一个网站。但这是一种“黑客行为”,它不是自动的,我不知道它是否能满足您的需要。

该网站受到ShieldSquare和DirtionNetwork等废弃服务的保护。webdriver还能用吗?页面上的javascript已被丑化,因此无法获取url。但我认为这些保护服务也会造成指纹。你有这方面的经验吗?不幸的是没有。但是,我假设,即使这些服务也依赖于客户端发送的头。Selenium模仿常规浏览器,因此如果您正确设置标题(userAgent等),我相信不会有问题。服务器将无法识别无头浏览器和常规浏览器之间的任何区别。但正如我所说的,我没有这些服务的经验,所以请恕我直言。要检查浏览器发送的标题,请选中此项