设置和运行ApacheNutch2.2.1

设置和运行ApacheNutch2.2.1,apache,hbase,nutch,gora,Apache,Hbase,Nutch,Gora,我正试图在我的ubuntu桌面上设置并运行ApacheNutch2.2.1。作为一名新手,我发现官方网站提供的教程的某些部分有点混乱 如果我在自己的桌面上运行它,转到 $NUTCH_HOME/runtime/local 要运行bin/nutch命令 我应该把名为URL的文件放在哪里?(其中有一个种子列表seed.txt)它在下面吗 $NUTCH_HOME/runtime/local 如果我在正确的目录中,我在执行命令时遇到了这个问题 bin/nutch crawl urls -dir

我正试图在我的ubuntu桌面上设置并运行ApacheNutch2.2.1。作为一名新手,我发现官方网站提供的教程的某些部分有点混乱

  • 如果我在自己的桌面上运行它,转到

    $NUTCH_HOME/runtime/local 
    
  • 要运行bin/nutch命令

  • 我应该把名为URL的文件放在哪里?(其中有一个种子列表seed.txt)它在下面吗

    $NUTCH_HOME/runtime/local
    
  • 如果我在正确的目录中,我在执行命令时遇到了这个问题

    bin/nutch crawl urls -dir crawl -depth 1
    
    InjectorJob:使用类org.apache.gora.memory.store.MemStore作为gora存储类。 InjectorJob:筛选器拒绝的URL总数:0 InjectorJob:规范化和筛选后注入的URL总数:0 线程“main”java.lang.RuntimeException中的异常:作业失败:name=generate:null,jobid=job\u local1613558008\u 0002 位于org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 位于org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 位于org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) 位于org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 位于org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 位于org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 位于org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

    我将遵循教程1直到3.3 尚未配置GORA Hbase等。 似乎出现这个问题是因为注入器没有获取URL。
    有人知道如何解决这个问题吗?非常感谢

    您应该转到
    $NUTCH_HOME/runtime/deploy
    运行该命令

    如果您想与GORA和Hbase集成,请在Nutchsite.xml中提及这一点

    bin/nutch crawl urls -dir crawl -depth 1
    
     <property>
            <name>storage.data.store.class</name>
            <value>org.apache.gora.hbase.store.HBaseStore</value>
            <description>Default class for storing data</description>
        </property>
    
    
    storage.data.store.class
    org.apache.gora.hbase.store.HBaseStore
    用于存储数据的默认类
    
    对于Nutch 2.2.1,您必须遵循Nutch 2.x的教程:您的建议或您在此处回答的问题的哪一部分不太清楚,能否编辑此答案以提供更多详细信息?