Python 如何在抓取数据时防止IP阻塞_Python_Selenium

Python 如何在抓取数据时防止IP阻塞

python selenium

Python 如何在抓取数据时防止IP阻塞,python,selenium,Python,Selenium,我目前正试图从glassdoor.com上搜集工作数据。我的脚本执行抓取操作，但是站点会阻止我的IP地址。我曾尝试在代码中使用wait语句，但没有任何帮助。我发现，通过旋转代理，我可能会刮取数据，但我不知道如何做到这一点。关于如何解决这个问题的任何建议。我正在使用python和selenium。有一种方法，您可以在使用selenium获取页面时使用标题。但是selenium没有使用头的本地功能，您必须寻找浏览器扩展我为此使用： from seleniumwire import webdriv

我目前正试图从glassdoor.com上搜集工作数据。我的脚本执行抓取操作，但是站点会阻止我的IP地址。我曾尝试在代码中使用wait语句，但没有任何帮助。我发现，通过旋转代理，我可能会刮取数据，但我不知道如何做到这一点。关于如何解决这个问题的任何建议。

我正在使用python和selenium。

有一种方法，您可以在使用selenium获取页面时使用标题。但是selenium没有使用头的本地功能，您必须寻找浏览器扩展

我为此使用：

from seleniumwire import webdriver  

driver = webdriver.Firefox()

# Set the request header using the `header_overrides` attribute **Referrer** key
driver.header_overrides = {
    'Referrer': 'referrer_string',
}

driver.get('https://mysite')

有一种方法，您可以在使用Selenium获取页面时使用标题。但是selenium没有使用头的本地功能，您必须寻找浏览器扩展

我为此使用：

from seleniumwire import webdriver  

driver = webdriver.Firefox()

# Set the request header using the `header_overrides` attribute **Referrer** key
driver.header_overrides = {
    'Referrer': 'referrer_string',
}

driver.get('https://mysite')

您确定该站点正在阻止您的IP或安装了反机器人的reCaptcha吗？您确定该站点正在阻止您的IP或安装了反机器人的reCaptcha吗？