Web scraping 在不接触api的情况下刮取pastebin的最佳速率？_Web Scraping_Pastebin

Web scraping 在不接触api的情况下刮取pastebin的最佳速率？

web-scraping

Web scraping 在不接触api的情况下刮取pastebin的最佳速率？,web-scraping,pastebin,Web Scraping,Pastebin,正如标题所述，我正试图找出在不被他们的归档页面阻止的情况下刮取pastebin的最佳速率。还有其他人明白了吗？我不知道这是否是您的意思，但API文档中说“我们建议每秒发出的请求不要超过1个”。任何大于此值的请求都可以我遇到了类似的问题。最后，我不得不求助于一台服务器，负责每3分钟收集一次ID号（这大约是我们不会错过任何ID号的速度，除非有人发疯了！），然后创建一个API来公开这些ID号，这样一组从不同IP地址运行的外部服务器就可以获取粘贴并将其保存到中央数据库。中央脚本按顺序将serverID分

正如标题所述，我正试图找出在不被他们的归档页面阻止的情况下刮取pastebin的最佳速率。还有其他人明白了吗？

我不知道这是否是您的意思，但API文档中说“我们建议每秒发出的请求不要超过1个”。任何大于此值的请求都可以

我遇到了类似的问题。最后，我不得不求助于一台服务器，负责每3分钟收集一次ID号（这大约是我们不会错过任何ID号的速度，除非有人发疯了！），然后创建一个API来公开这些ID号，这样一组从不同IP地址运行的外部服务器就可以获取粘贴并将其保存到中央数据库。中央脚本按顺序将serverID分配给每个id编号，这样就不会发生冲突或重复刮取，结果是每个“从属刮取器”在刮取之间总共暂停4分钟，而收割只是设法跟上id收集。这并没有触发pastebins恼人的IP速率限制。如果我为我可以免费得到的东西付钱，那就该死了

我想你的意思是-每秒少于1个请求-尽管这可能意味着-请求之间的间隔超过1秒。在他的标题中，作者提到他没有API访问权限。@serk知道，如果他们的站点使用相同的条件限制站点范围内的所有请求，引用此选项可能会很有用。不管怎样，这一点很好