Web scraping 使用无头浏览器设置检索openid承载令牌_Web Scraping_Openid_Htmlunit

Web scraping 使用无头浏览器设置检索openid承载令牌

web-scraping openid

Web scraping 使用无头浏览器设置检索openid承载令牌,web-scraping,openid,htmlunit,Web Scraping,Openid,Htmlunit,使用OkHttp3，我很高兴地浏览了一段时间的网站。然而，该网站的一些组件已经升级，现在正在使用额外的OpenID承载身份验证我99.9%肯定由于这个承载令牌，我的请求失败了，因为当我使用Chrome开发工具检查时，我看到承载令牌只出现在这些部分。此外，一些请求将指向以“.well-known/openid配置”结尾的链接。此外，当我在OkHttp3代码中从浏览器硬编码承载令牌时，一切都正常。如果没有密码，我会收到一条401非授权信息我认为我的浏览器模拟与实际情况不太接近，所以我决定使用无头

使用OkHttp3，我很高兴地浏览了一段时间的网站。然而，该网站的一些组件已经升级，现在正在使用额外的OpenID承载身份验证

我99.9%肯定由于这个承载令牌，我的请求失败了，因为当我使用Chrome开发工具检查时，我看到承载令牌只出现在这些部分。此外，一些请求将指向以“.well-known/openid配置”结尾的链接。此外，当我在OkHttp3代码中从浏览器硬编码承载令牌时，一切都正常。如果没有密码，我会收到一条401非授权信息

我认为我的浏览器模拟与实际情况不太接近，所以我决定使用无头浏览器设置来执行一些javascript调用。因为我使用的是Java，所以我使用了HtmlUnit。使用这个工具，我可以很快地获得一个点，我可以成功地刮网站的部分（就像OkHttp3），但它会再次失败与新更新的部分。我检查了，但在任何响应中都找不到承载令牌（也没有在标题或cookie中）

这种方法（使用无头浏览器）有可能奏效吗？或者，我可以检查一下是否有其他方法。

您实际上是如何在网站上划破障碍的？您是在浏览器中加载站点并读取响应，还是调用站点的后端（例如API）？另外，你使用哪种无头浏览器？我使用HtmlUnit和Java，并以我是普通用户的身份调用该站点。如果我得到了承载令牌，我可以调用一些后端API。但在此之前，我需要做一些定期的请求。