Post Nutch和Http后身份验证?

Post Nutch和Http后身份验证?,post,nutch,Post,Nutch,我被困在需要抓取有表单帖子的网站的地方。 Nutch不支持这一点。 我如何绕过这个问题,以便我可以用Nutch抓取这些网站?有更好的解决办法吗 使用data:regex创建一个文件,用于需要auth/URL提交表单/表单数据的URL 制作自己的http协议插件,修改标准协议httpclient插件。若发出http请求的URL需要进行身份验证,但还并没有进行身份验证,那个么请转到表单并发送它 这是最简单的解决方案。问题是,对于大量的网站,没有一个简单的解决方案。在登录等过程中,cookie过期/使

我被困在需要抓取有表单帖子的网站的地方。 Nutch不支持这一点。 我如何绕过这个问题,以便我可以用Nutch抓取这些网站?有更好的解决办法吗

  • 使用data:regex创建一个文件,用于需要auth/URL提交表单/表单数据的URL
  • 制作自己的http协议插件,修改标准协议httpclient插件。若发出http请求的URL需要进行身份验证,但还并没有进行身份验证,那个么请转到表单并发送它

  • 这是最简单的解决方案。问题是,对于大量的网站,没有一个简单的解决方案。在登录等过程中,cookie过期/使用Javascript存在问题。通过Nutch的JIRA搜索,对此进行了很多讨论。

    以下是你们想要的答案:

    这两个链接有完整的示例代码。如果您正确地遵循每个步骤,那么您将能够在Nutch中实现基于表单的身份验证