Java 环路内呼叫控制器(爬虫4J-3.5)
您好,我正在调用Java 环路内呼叫控制器(爬虫4J-3.5),java,web-crawler,crawler4j,Java,Web Crawler,Crawler4j,您好,我正在调用控制器内部for loop,因为我有100多个url,所以我有一个all-in列表,我将迭代和爬网页面,我也为setCustomData设置该url,因为它不应该离开域 for (Iterator<String> iterator = ifList.listIterator(); iterator.hasNext();) { String str = iterator.next(); System.out.println("cheking"+str);
控制器内部for loop
,因为我有100多个url,所以我有一个all-in列表,我将迭代和爬网
页面,我也为setCustomData设置该url,因为它不应该离开域
for (Iterator<String> iterator = ifList.listIterator(); iterator.hasNext();) {
String str = iterator.next();
System.out.println("cheking"+str);
CrawlController controller = new CrawlController(config, pageFetcher,
robotstxtServer);
controller.setCustomData(str);
controller.addSeed(str);
controller.startNonBlocking(BasicCrawler.class, numberOfCrawlers);
controller.waitUntilFinish();
}
请帮我解决上面的解决方案,我在循环中启动并运行控制器,因为我在列表中有很多url
注意:*我正在使用**crawler4j-3.5.jar及其依赖项。尝试:
for(String url : urls) {
controller.addSeed(url);
}
并覆盖shouldVisit(WebUrl)
,使其不能离开域
for(String url : urls) {
controller.addSeed(url);
}