Web scraping 在不接触api的情况下刮取pastebin的最佳速率?

Web scraping 在不接触api的情况下刮取pastebin的最佳速率?,web-scraping,pastebin,Web Scraping,Pastebin,正如标题所述,我正试图找出在不被他们的归档页面阻止的情况下刮取pastebin的最佳速率。还有其他人明白了吗?我不知道这是否是您的意思,但API文档中说“我们建议每秒发出的请求不要超过1个”。任何大于此值的请求都可以我遇到了类似的问题。最后,我不得不求助于一台服务器,负责每3分钟收集一次ID号(这大约是我们不会错过任何ID号的速度,除非有人发疯了!),然后创建一个API来公开这些ID号,这样一组从不同IP地址运行的外部服务器就可以获取粘贴并将其保存到中央数据库。中央脚本按顺序将serverID分

正如标题所述,我正试图找出在不被他们的归档页面阻止的情况下刮取pastebin的最佳速率。还有其他人明白了吗?

我不知道这是否是您的意思,但API文档中说“我们建议每秒发出的请求不要超过1个”。任何大于此值的请求都可以

我遇到了类似的问题。最后,我不得不求助于一台服务器,负责每3分钟收集一次ID号(这大约是我们不会错过任何ID号的速度,除非有人发疯了!),然后创建一个API来公开这些ID号,这样一组从不同IP地址运行的外部服务器就可以获取粘贴并将其保存到中央数据库。中央脚本按顺序将serverID分配给每个id编号,这样就不会发生冲突或重复刮取,结果是每个“从属刮取器”在刮取之间总共暂停4分钟,而收割只是设法跟上id收集。这并没有触发pastebins恼人的IP速率限制。如果我为我可以免费得到的东西付钱,那就该死了

我想你的意思是-每秒少于1个请求-尽管这可能意味着-请求之间的间隔超过1秒。在他的标题中,作者提到他没有API访问权限。@serk知道,如果他们的站点使用相同的条件限制站点范围内的所有请求,引用此选项可能会很有用。不管怎样,这一点很好