Web crawler 如何使用ApacheNutch1.3API编写用于抓取站点的java代码？_Web Crawler_Nutch

Web crawler 如何使用ApacheNutch1.3API编写用于抓取站点的java代码？

web-crawler

Web crawler 如何使用ApacheNutch1.3API编写用于抓取站点的java代码？,web-crawler,nutch,Web Crawler,Nutch,我想用java和Nutch1.3API编写一个程序来抓取站点我在网上搜索过，但没有示例代码我该怎么做？谢谢您不需要为它编写任何Java代码。。。只要安装Nutch就可以了。但是，您应该安装Nutch 1.2，它是独立的。使用Nutch1.3，您需要自己安装hadoop，还需要为webseach安装&user Solr。我已经用solrj api编写了一个java程序，在本地索引我的文件并对其进行控制和调试，但我不知道nutch是否可能？nutch基于hadoop索引URL而不是文件系统

我想用java和Nutch1.3API编写一个程序来抓取站点我在网上搜索过，但没有示例代码我该怎么做？

谢谢

您不需要为它编写任何Java代码。。。只要安装Nutch就可以了。但是，您应该安装Nutch 1.2，它是独立的。

使用Nutch1.3，您需要自己安装hadoop，还需要为webseach安装&user Solr。

我已经用solrj api编写了一个java程序，在本地索引我的文件并对其进行控制和调试，但我不知道nutch是否可能？nutch基于hadoop索引URL而不是文件系统