Http Nutch:通过在标头中放入cookie进行身份验证

Http Nutch:通过在标头中放入cookie进行身份验证,http,authentication,cookies,solr,nutch,Http,Authentication,Cookies,Solr,Nutch,让Nutch能够抓取需要认证的网站部分的支持或信息非常少,这让我感到惊讶 我知道ApacheNutch目前可能无法()支持Http后期身份验证 然而,我们真正想要做的是能够将cookie添加到我们的Nutch bot头中,从而允许它以这种方式访问站点的这些部分(而不是将用户名和密码发布到表单中,然后接收cookie) 因此,我花了大量时间进行搜索,并惊讶地发现,关于这一点的大多数讨论都要追溯到2005年或2008年: 这么多年过去了,到底有没有办法绕过这个限制,还是仍然没有办法通过给Nutch一

让Nutch能够抓取需要认证的网站部分的支持或信息非常少,这让我感到惊讶

我知道ApacheNutch目前可能无法()支持Http后期身份验证

然而,我们真正想要做的是能够将cookie添加到我们的Nutch bot头中,从而允许它以这种方式访问站点的这些部分(而不是将用户名和密码发布到表单中,然后接收cookie)

因此,我花了大量时间进行搜索,并惊讶地发现,关于这一点的大多数讨论都要追溯到2005年或2008年:


这么多年过去了,到底有没有办法绕过这个限制,还是仍然没有办法通过给Nutch一个“预焙”的cookie来进行身份验证,这样它就可以访问我们网站的部分成员了?

我已经为Nutch protocol httpclient插件添加了自定义代码来解决这个问题

共享下面链接中的更改


Hi Mouli,您在上面的链接中提到的代码很好,但是没有import语句,因为我发现了编译时错误。另外,请分享您上传完整的基于格式的身份验证代码的链接Hi Jayesh,我已经添加了导入。不幸的是,我不能共享java文件,因为它有一些敏感内容。如果您还有其他问题,请告诉我。你好,莫里,谢谢您添加进口声明。然而,您能告诉我从哪里调用下面的函数吗?受保护的响应getResponse(URL、网页页面、布尔重定向)抛出ProtocolException、IOException{}Hi Jayesh,我们正在重写现有的回调方法(getResponse)。它将在nutch爬行时调用。不需要显式地调用它。