Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/73.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
RCrawler:限制RCrawler收集的页面数量的方法?(不是爬行深度)_R_Web Scraping_Rcrawler - Fatal编程技术网

RCrawler:限制RCrawler收集的页面数量的方法?(不是爬行深度)

RCrawler:限制RCrawler收集的页面数量的方法?(不是爬行深度),r,web-scraping,rcrawler,R,Web Scraping,Rcrawler,我正在使用RCrawler抓取约300个网站。网站的大小是相当多样的:一些是小的(十几页左右),而另一些是大的(每个域1000页)。对后者进行爬网非常耗时,而且——出于我的研究目的——当我已经有几百个页面时,更多页面的附加值会降低 那么:如果收集了x个页面,有没有办法停止爬网 我知道我可以使用MaxDepth限制爬网,但即使在MaxDepth=2时,这仍然是一个问题。MaxDepth=1不适合我的研究。另外,我更喜欢保持MaxDepth高,这样较小的网站会被完全爬网 非常感谢 如何为Rcrawl

我正在使用RCrawler抓取约300个网站。网站的大小是相当多样的:一些是小的(十几页左右),而另一些是大的(每个域1000页)。对后者进行爬网非常耗时,而且——出于我的研究目的——当我已经有几百个页面时,更多页面的附加值会降低

那么:如果收集了x个页面,有没有办法停止爬网

我知道我可以使用MaxDepth限制爬网,但即使在MaxDepth=2时,这仍然是一个问题。MaxDepth=1不适合我的研究。另外,我更喜欢保持MaxDepth高,这样较小的网站会被完全爬网


非常感谢

如何为
Rcrawler
函数的
FUNPageFilter
参数实现自定义函数?自定义函数检查
DIR
中的文件数,如果文件太多,则返回FALSE