Python scrapy crawler的请求被阻止。可以正常访问使用请求库的请求。什么';原因是什么?
使用scrapy框架,我制定了以下策略:Python scrapy crawler的请求被阻止。可以正常访问使用请求库的请求。什么';原因是什么?,python,scrapy,python-requests,Python,Scrapy,Python Requests,使用scrapy框架,我制定了以下策略: 1.随机用户代理 2.代理IP池 3.最多15秒的下载间隔和随机请求间隔 4.禁用cookies 5.将并发设置为8 但是它不起作用,因为第一个请求的响应代码是500,而其他请求的响应代码是500 然后我尝试使用请求库 使用相同的代理池 随机用户代理 并发性是12 使用请求库是正常的。其响应代码为200 这是什么原因造成的?有很多客户端库/web产品可以阻止来自web scraping库的收入请求 通常,这些工具会检查由这些scraper库发送的公共请
1.随机用户代理
2.代理IP池
3.最多15秒的下载间隔和随机请求间隔
4.禁用cookies
5.将并发设置为8 但是它不起作用,因为第一个请求的响应代码是500,而其他请求的响应代码是500
然后我尝试使用请求库
这是什么原因造成的?有很多客户端库/web产品可以阻止来自web scraping库的收入请求 通常,这些工具会检查由这些scraper库发送的公共请求头,因此仔细检查它们的存在可能会很有用
有很多客户端库/web产品可以阻止来自web scraping库的收入请求 通常,这些工具会检查由这些scraper库发送的公共请求头,因此仔细检查它们的存在可能会很有用
为什么我可以正常使用请求库?@JackDawson我会检查请求头和有效负载,看看是否有任何东西不能将一个请求识别为通过废弃方式发送的请求。为什么我可以正常使用请求库?@JackDawson我会检查请求头和有效负载,看看是否有任何东西不能识别将一个请求标识为通过scrapy发送的请求。您是否将代理IP池与scrapy一起使用,但未将代理与请求库一起使用?否,我在使用请求库时使用相同的代理IP池。您将并发12与请求库一起使用是什么意思?请求是同步的,is没有并发性。我使用了多线程。您是否将代理IP池与scrapy一起使用,但没有代理与请求库一起使用?否,我在使用请求库时使用相同的代理IP池。您将并发12与请求库一起使用是什么意思?请求是同步的,没有并发性