错误404:要刮取的Python url上的刮片在浏览器中工作(有时),但在Python中不工作

错误404:要刮取的Python url上的刮片在浏览器中工作(有时),但在Python中不工作,python,scrapy,http-status-code-404,Python,Scrapy,Http Status Code 404,我正在进行一个项目,需要对以下url的数据进行刮取: url的最后一部分表示对象的ID。在浏览器中打开链接确实有效,但有时会返回404错误。在python中使用ScrapyShell时也是如此,有时我可以刮取url,有时则不能 当我设法打开url(没有404错误)时,我转到inspect>network。但我没有足够的经验来理解这些信息。有人知道这个问题吗?或此主题的其他信息 您可以尝试其他URL: https://www.funda.nl/objectinsights/getdata/5819

我正在进行一个项目,需要对以下url的数据进行刮取:

url的最后一部分表示对象的ID。在浏览器中打开链接确实有效,但有时会返回404错误。在python中使用ScrapyShell时也是如此,有时我可以刮取url,有时则不能

当我设法打开url(没有404错误)时,我转到inspect>network。但我没有足够的经验来理解这些信息。有人知道这个问题吗?或此主题的其他信息

您可以尝试其他URL:

https://www.funda.nl/objectinsights/getdata/5819260/
https://www.funda.nl/objectinsights/getdata/5819578/
https://www.funda.nl/objectinsights/getdata/5819237/
https://www.funda.nl/objectinsights/getdata/5819359/
https://www.funda.nl/objectinsights/getdata/5819371/
https://www.funda.nl/objectinsights/getdata/5819386/

我在scrapy shell中测试了这些,每次得到200个响应

这不是一个棘手的问题,如果您有间歇404响应,甚至从浏览器

它们很可能会将每个ip地址或每分钟的请求数限制为少量

试着在请求之间写一些延迟的代码,或者使用旋转代理(如果你不想注册的话,可以免费试用)