Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/395.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 增加爬网程序中的线程数_Java_Web Crawler - Fatal编程技术网

Java 增加爬网程序中的线程数

Java 增加爬网程序中的线程数,java,web-crawler,Java,Web Crawler,所以我只想确定这一行在controller.java文件中是什么意思 public class Controller { public static void main(String[] args) throws Exception { CrawlController controller = new CrawlController("/data/crawl/root"); controller.addSeed("h

所以我只想确定这一行在controller.java文件中是什么意思

public class Controller {
        public static void main(String[] args) throws Exception {
                CrawlController controller = new CrawlController("/data/crawl/root");
                controller.addSeed("http://www.xyz.us.edu/");
                controller.start(MyCrawler.class, 10);  
        }
}
下面是10的含义。。如果我们把这个增加到10到20,那么会有什么影响。。。如果您有任何建议,我们将不胜感激。

网站显示了CrawlController的来源

从10增加到20会增加爬虫的数量(每个爬虫都在自己的线程中)-研究该代码将告诉您这将产生什么影响。

网站显示了爬虫控制器的源代码


从10增加到20会增加爬虫程序的数量(每个爬虫程序都在自己的线程中)-研究该代码将告诉您这将产生什么影响。

根据您在帖子上的名字,您似乎已经知道它的作用-它设置了爬虫程序线程的数量。至于它会有什么影响。。。这在很大程度上取决于每个线程等待I/O的时间(主要是网络和少量磁盘),以及CPU和磁盘吞吐量。当以下情况之一发生时,将出现峰值吞吐量:

  • 没有更多的CPU时间了
  • 没有更多的网络带宽
  • 没有更多的磁盘带宽

对于CPU,不要期望达到100%-图80%左右的最大值。

根据您在帖子上的名字,您似乎已经知道它的作用-它设置了爬虫线程的数量。至于它会有什么影响。。。这在很大程度上取决于每个线程等待I/O的时间(主要是网络和少量磁盘),以及CPU和磁盘吞吐量。当以下情况之一发生时,将出现峰值吞吐量:

  • 没有更多的CPU时间了
  • 没有更多的网络带宽
  • 没有更多的磁盘带宽
对于CPU,不要期望达到100%-图80%左右的最大值

public class Controller {
        public static void main(String[] args) throws Exception {
                CrawlController controller = new CrawlController("/data/crawl/root");
                controller.addSeed("http://www.xyz.us.edu/");
                controller.start(MyCrawler.class, 10);  
        }
}
controller.start(MyCrawler.class, 10);