Java 增加爬网程序中的线程数
所以我只想确定这一行在controller.java文件中是什么意思Java 增加爬网程序中的线程数,java,web-crawler,Java,Web Crawler,所以我只想确定这一行在controller.java文件中是什么意思 public class Controller { public static void main(String[] args) throws Exception { CrawlController controller = new CrawlController("/data/crawl/root"); controller.addSeed("h
public class Controller {
public static void main(String[] args) throws Exception {
CrawlController controller = new CrawlController("/data/crawl/root");
controller.addSeed("http://www.xyz.us.edu/");
controller.start(MyCrawler.class, 10);
}
}
下面是10的含义。。如果我们把这个增加到10到20,那么会有什么影响。。。如果您有任何建议,我们将不胜感激。网站显示了CrawlController的来源
从10增加到20会增加爬虫的数量(每个爬虫都在自己的线程中)-研究该代码将告诉您这将产生什么影响。网站显示了爬虫控制器的源代码
从10增加到20会增加爬虫程序的数量(每个爬虫程序都在自己的线程中)-研究该代码将告诉您这将产生什么影响。根据您在帖子上的名字,您似乎已经知道它的作用-它设置了爬虫程序线程的数量。至于它会有什么影响。。。这在很大程度上取决于每个线程等待I/O的时间(主要是网络和少量磁盘),以及CPU和磁盘吞吐量。当以下情况之一发生时,将出现峰值吞吐量:
- 没有更多的CPU时间了
- 没有更多的网络带宽
- 没有更多的磁盘带宽
对于CPU,不要期望达到100%-图80%左右的最大值。根据您在帖子上的名字,您似乎已经知道它的作用-它设置了爬虫线程的数量。至于它会有什么影响。。。这在很大程度上取决于每个线程等待I/O的时间(主要是网络和少量磁盘),以及CPU和磁盘吞吐量。当以下情况之一发生时,将出现峰值吞吐量:
- 没有更多的CPU时间了
- 没有更多的网络带宽
- 没有更多的磁盘带宽
public class Controller {
public static void main(String[] args) throws Exception {
CrawlController controller = new CrawlController("/data/crawl/root");
controller.addSeed("http://www.xyz.us.edu/");
controller.start(MyCrawler.class, 10);
}
}
controller.start(MyCrawler.class, 10);