Python中的抓取-防止IP禁止_Python_Selenium_Web Scraping_Screen Scraping

Python中的抓取-防止IP禁止

python selenium web-scraping

Python中的抓取-防止IP禁止,python,selenium,web-scraping,screen-scraping,Python,Selenium,Web Scraping,Screen Scraping,我正在使用Python来抓取页面。直到现在，我还没有遇到任何复杂的问题我正在尝试清理的站点使用了大量的安全检查，并且有一些机制来防止清理使用请求和lxml我能够在被IP禁止之前抓取大约100-150页。有时我甚至会在第一次请求时被禁止（新的IP，以前没有使用过，不同的C块）。我尝试过欺骗头，随机分配请求之间的时间，仍然是一样的我尝试过硒，我得到了更好的结果。有了Selenium，我可以在被禁止之前浏览600-650页。在这里，我还尝试将请求随机化（在3-5秒之间，并在每300次请求时进行t

我正在使用

Python

来抓取页面。直到现在，我还没有遇到任何复杂的问题

我正在尝试清理的站点使用了大量的安全检查，并且有一些机制来防止清理

使用

请求

和

lxml

我能够在被IP禁止之前抓取大约100-150页。有时我甚至会在第一次请求时被禁止（新的IP，以前没有使用过，不同的C块）。我尝试过欺骗头，随机分配请求之间的时间，仍然是一样的

我尝试过硒，我得到了更好的结果。有了Selenium，我可以在被禁止之前浏览600-650页。在这里，我还尝试将请求随机化（在3-5秒之间，并在每300次请求时进行

time.sleep（300）

调用）。尽管如此，我还是被禁止了

def load_proxy(PROXY_HOST,PROXY_PORT):
        fp = webdriver.FirefoxProfile()
        fp.set_preference("network.proxy.type", 1)
        fp.set_preference("network.proxy.http",PROXY_HOST)
        fp.set_preference("network.proxy.http_port",int(PROXY_PORT))
        fp.set_preference("general.useragent.override","whater_useragent")
        fp.update_preferences()
        return webdriver.Firefox(firefox_profile=fp)

从这里我可以得出结论，该网站有一些机制，如果它在一个开放的浏览器会话中请求超过X个页面或类似的内容，他们就会禁止IP

根据您的经验，我还应该尝试什么？ 将在Selenium帮助中关闭和打开浏览器（例如，在每100次请求后关闭和打开浏览器）。我曾考虑尝试使用代理，但有大约百万的页面，这将是非常广阔的。

您可以使用代理

您可以以非常便宜的价格购买几百个IP，并像以前一样使用硒。此外，我建议更改您使用的浏览器和其他用户代理参数

您可以使用单个IP地址反复加载x个页面，并在被禁止之前停止

def load_proxy(PROXY_HOST,PROXY_PORT):
        fp = webdriver.FirefoxProfile()
        fp.set_preference("network.proxy.type", 1)
        fp.set_preference("network.proxy.http",PROXY_HOST)
        fp.set_preference("network.proxy.http_port",int(PROXY_PORT))
        fp.set_preference("general.useragent.override","whater_useragent")
        fp.update_preferences()
        return webdriver.Firefox(firefox_profile=fp)

如果您切换到，您将能够重用为防止和解决禁令而制作的许多东西：

内置的：

这是一个扩展，用于根据Scrapy服务器和正在爬网的网站的负载自动调节爬网速度

使用中间件轮换用户代理：

在每个请求中使用假用户代理提供的随机用户代理

轮换IP地址：
您也可以通过本地代理运行它&TOR:

python3

urllib

tor

并安装tor浏览器
测试tor

curl --socks5-hostname localhost:9050 <http://site-that-blocked-you.com>