Nutch 如何避免在不关闭共享磁盘的情况下对其进行爬网?

Nutch 如何避免在不关闭共享磁盘的情况下对其进行爬网?,nutch,Nutch,我用的是Nutch。我计划抓取共享磁盘而不是互联网网站 我担心的一件事是,爬行它会使磁盘变得非常慢。 如何避免在不关闭共享磁盘的情况下对其进行爬网?您可以在conf/nutch-site.xml中设置线程数和请求之间的等待时间 尝试覆盖这些属性,并将其设置为您感到满意的值: <property> <name>fetcher.threads.fetch</name> <value>10</value> <descript

我用的是Nutch。我计划抓取共享磁盘而不是互联网网站

我担心的一件事是,爬行它会使磁盘变得非常慢。
如何避免在不关闭共享磁盘的情况下对其进行爬网?

您可以在conf/nutch-site.xml中设置线程数和请求之间的等待时间

尝试覆盖这些属性,并将其设置为您感到满意的值:

<property>
  <name>fetcher.threads.fetch</name>
  <value>10</value>
  <description>The number of FetcherThreads the fetcher should use.
  This is also determines the maximum number of requests that are
  made at once (each FetcherThread handles one connection). The total
  number of threads running in distributed mode will be the number of
  fetcher threads * number of nodes as fetcher has one map task per node.
  </description>
</property>

<property>
  <name>fetcher.threads.per.queue</name>
  <value>1</value>
  <description>This number is the maximum number of threads that
    should be allowed to access a queue at one time.
   </description>
</property>

fetcher.threads.fetch
10
获取程序应使用的获取线程数。
这也决定了请求的最大数量
立即创建(每个FetcherThread处理一个连接)。总数
在分布式模式下运行的线程数将是
获取程序线程数*作为获取程序,每个节点有一个映射任务的节点数。
fetcher.threads.per.queue
1.
此数字是可执行的最大线程数
应允许一次访问队列。