RCrawler:限制RCrawler收集的页面数量的方法?(不是爬行深度)
我正在使用RCrawler抓取约300个网站。网站的大小是相当多样的:一些是小的(十几页左右),而另一些是大的(每个域1000页)。对后者进行爬网非常耗时,而且——出于我的研究目的——当我已经有几百个页面时,更多页面的附加值会降低 那么:如果收集了x个页面,有没有办法停止爬网 我知道我可以使用MaxDepth限制爬网,但即使在MaxDepth=2时,这仍然是一个问题。MaxDepth=1不适合我的研究。另外,我更喜欢保持MaxDepth高,这样较小的网站会被完全爬网RCrawler:限制RCrawler收集的页面数量的方法?(不是爬行深度),r,web-scraping,rcrawler,R,Web Scraping,Rcrawler,我正在使用RCrawler抓取约300个网站。网站的大小是相当多样的:一些是小的(十几页左右),而另一些是大的(每个域1000页)。对后者进行爬网非常耗时,而且——出于我的研究目的——当我已经有几百个页面时,更多页面的附加值会降低 那么:如果收集了x个页面,有没有办法停止爬网 我知道我可以使用MaxDepth限制爬网,但即使在MaxDepth=2时,这仍然是一个问题。MaxDepth=1不适合我的研究。另外,我更喜欢保持MaxDepth高,这样较小的网站会被完全爬网 非常感谢 如何为Rcrawl
非常感谢 如何为
Rcrawler
函数的FUNPageFilter
参数实现自定义函数?自定义函数检查DIR
中的文件数,如果文件太多,则返回FALSE