Web scraping 使用无头浏览器设置检索openid承载令牌

Web scraping 使用无头浏览器设置检索openid承载令牌,web-scraping,openid,htmlunit,Web Scraping,Openid,Htmlunit,使用OkHttp3,我很高兴地浏览了一段时间的网站。然而,该网站的一些组件已经升级,现在正在使用额外的OpenID承载身份验证 我99.9%肯定由于这个承载令牌,我的请求失败了,因为当我使用Chrome开发工具检查时,我看到承载令牌只出现在这些部分。此外,一些请求将指向以“.well-known/openid配置”结尾的链接。此外,当我在OkHttp3代码中从浏览器硬编码承载令牌时,一切都正常。如果没有密码,我会收到一条401非授权信息 我认为我的浏览器模拟与实际情况不太接近,所以我决定使用无头

使用OkHttp3,我很高兴地浏览了一段时间的网站。然而,该网站的一些组件已经升级,现在正在使用额外的OpenID承载身份验证

我99.9%肯定由于这个承载令牌,我的请求失败了,因为当我使用Chrome开发工具检查时,我看到承载令牌只出现在这些部分。此外,一些请求将指向以“.well-known/openid配置”结尾的链接。此外,当我在OkHttp3代码中从浏览器硬编码承载令牌时,一切都正常。如果没有密码,我会收到一条401非授权信息

我认为我的浏览器模拟与实际情况不太接近,所以我决定使用无头浏览器设置来执行一些javascript调用。因为我使用的是Java,所以我使用了HtmlUnit。使用这个工具,我可以很快地获得一个点,我可以成功地刮网站的部分(就像OkHttp3),但它会再次失败与新更新的部分。我检查了,但在任何响应中都找不到承载令牌(也没有在标题或cookie中)


这种方法(使用无头浏览器)有可能奏效吗?或者,我可以检查一下是否有其他方法。

您实际上是如何在网站上划破障碍的?您是在浏览器中加载站点并读取响应,还是调用站点的后端(例如API)?另外,你使用哪种无头浏览器?我使用HtmlUnit和Java,并以我是普通用户的身份调用该站点。如果我得到了承载令牌,我可以调用一些后端API。但在此之前,我需要做一些定期的请求。