Python 如何在抓取数据时防止IP阻塞

Python 如何在抓取数据时防止IP阻塞,python,selenium,Python,Selenium,我目前正试图从glassdoor.com上搜集工作数据。我的脚本执行抓取操作,但是站点会阻止我的IP地址。我曾尝试在代码中使用wait语句,但没有任何帮助。我发现,通过旋转代理,我可能会刮取数据,但我不知道如何做到这一点。关于如何解决这个问题的任何建议。 我正在使用python和selenium。有一种方法,您可以在使用selenium获取页面时使用标题。但是selenium没有使用头的本地功能,您必须寻找浏览器扩展 我为此使用: from seleniumwire import webdriv

我目前正试图从glassdoor.com上搜集工作数据。我的脚本执行抓取操作,但是站点会阻止我的IP地址。我曾尝试在代码中使用wait语句,但没有任何帮助。我发现,通过旋转代理,我可能会刮取数据,但我不知道如何做到这一点。关于如何解决这个问题的任何建议。
我正在使用python和selenium。

有一种方法,您可以在使用selenium获取页面时使用标题。但是selenium没有使用头的本地功能,您必须寻找浏览器扩展

我为此使用:

from seleniumwire import webdriver  

driver = webdriver.Firefox()

# Set the request header using the `header_overrides` attribute **Referrer** key
driver.header_overrides = {
    'Referrer': 'referrer_string',
}

driver.get('https://mysite')

有一种方法,您可以在使用Selenium获取页面时使用标题。但是selenium没有使用头的本地功能,您必须寻找浏览器扩展

我为此使用:

from seleniumwire import webdriver  

driver = webdriver.Firefox()

# Set the request header using the `header_overrides` attribute **Referrer** key
driver.header_overrides = {
    'Referrer': 'referrer_string',
}

driver.get('https://mysite')

您确定该站点正在阻止您的IP或安装了反机器人的reCaptcha吗?您确定该站点正在阻止您的IP或安装了反机器人的reCaptcha吗?