Web crawler 如何使用ApacheNutch1.3API编写用于抓取站点的java代码?

Web crawler 如何使用ApacheNutch1.3API编写用于抓取站点的java代码?,web-crawler,nutch,Web Crawler,Nutch,我想用java和Nutch1.3API编写一个程序来抓取站点 我在网上搜索过,但没有示例代码 我该怎么做? 谢谢您不需要为它编写任何Java代码。。。只要安装Nutch就可以了。但是,您应该安装Nutch 1.2,它是独立的。 使用Nutch1.3,您需要自己安装hadoop,还需要为webseach安装&user Solr。我已经用solrj api编写了一个java程序,在本地索引我的文件并对其进行控制和调试,但我不知道nutch是否可能?nutch基于hadoop索引URL而不是文件系统

我想用java和Nutch1.3API编写一个程序来抓取站点 我在网上搜索过,但没有示例代码 我该怎么做?
谢谢

您不需要为它编写任何Java代码。。。只要安装Nutch就可以了。但是,您应该安装Nutch 1.2,它是独立的。

使用Nutch1.3,您需要自己安装hadoop,还需要为webseach安装&user Solr。

我已经用solrj api编写了一个java程序,在本地索引我的文件并对其进行控制和调试,但我不知道nutch是否可能?nutch基于hadoop索引URL而不是文件系统