RCrawler：限制RCrawler收集的页面数量的方法？（不是爬行深度）_R_Web Scraping_Rcrawler

RCrawler：限制RCrawler收集的页面数量的方法？（不是爬行深度）

r web-scraping

RCrawler：限制RCrawler收集的页面数量的方法？（不是爬行深度）,r,web-scraping,rcrawler,R,Web Scraping,Rcrawler,我正在使用RCrawler抓取约300个网站。网站的大小是相当多样的：一些是小的（十几页左右），而另一些是大的（每个域1000页）。对后者进行爬网非常耗时，而且——出于我的研究目的——当我已经有几百个页面时，更多页面的附加值会降低那么：如果收集了x个页面，有没有办法停止爬网我知道我可以使用MaxDepth限制爬网，但即使在MaxDepth=2时，这仍然是一个问题。MaxDepth=1不适合我的研究。另外，我更喜欢保持MaxDepth高，这样较小的网站会被完全爬网非常感谢如何为Rcrawl

我正在使用RCrawler抓取约300个网站。网站的大小是相当多样的：一些是小的（十几页左右），而另一些是大的（每个域1000页）。对后者进行爬网非常耗时，而且——出于我的研究目的——当我已经有几百个页面时，更多页面的附加值会降低

那么：如果收集了x个页面，有没有办法停止爬网

我知道我可以使用MaxDepth限制爬网，但即使在MaxDepth=2时，这仍然是一个问题。MaxDepth=1不适合我的研究。另外，我更喜欢保持MaxDepth高，这样较小的网站会被完全爬网

非常感谢

如何为

Rcrawler

函数的

FUNPageFilter

参数实现自定义函数？自定义函数检查

DIR

中的文件数，如果文件太多，则返回FALSE