Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/286.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 沃尔玛被封锁_Python_Selenium_Beautifulsoup - Fatal编程技术网

Python 沃尔玛被封锁

Python 沃尔玛被封锁,python,selenium,beautifulsoup,Python,Selenium,Beautifulsoup,我正试图从第1-100页中删去沃尔玛的分类。在请求页面之前,我已经实现了随机标题和随机等待时间,但在抓取前几页之后,仍然会使用验证码。沃尔玛是超级擅长检测刮刀还是我做错了什么 我正在使用selenium、bs4和随机用户代理 代码: 这就是我一直试图做的,这样我就不会被阻止。有更好的方法吗?谢谢。对于所有请求,您的IP仍然相同。 您可以考虑使用python,当然这需要更长的时间,因为请求get是通过TOR路由的。我不熟悉使用selenium在TOR上应用proxying,但我敢打赌您可以找到很多

我正试图从第1-100页中删去沃尔玛的分类。在请求页面之前,我已经实现了随机标题和随机等待时间,但在抓取前几页之后,仍然会使用验证码。沃尔玛是超级擅长检测刮刀还是我做错了什么

我正在使用selenium、bs4和随机用户代理

代码:


这就是我一直试图做的,这样我就不会被阻止。有更好的方法吗?谢谢。

对于所有请求,您的IP仍然相同。 您可以考虑使用python,当然这需要更长的时间,因为请求get是通过TOR路由的。我不熟悉使用selenium在TOR上应用proxying,但我敢打赌您可以找到很多教程


沃尔玛可能有这种验证码机制是有原因的,所以也许可以寻找另一种获取数据的方法。

您的IP对于所有请求都是相同的。 您可以考虑使用python,当然这需要更长的时间,因为请求get是通过TOR路由的。我不熟悉使用selenium在TOR上应用proxying,但我敢打赌您可以找到很多教程


沃尔玛有这种验证码机制可能是有原因的,所以也许可以寻找另一种获取数据的方法。

可能会增加
时间。sleep()
?我投票决定结束这个问题,因为它询问如何规避商业网站的安全措施。在堆栈溢出上有许多问题询问如何在刮取时不被阻止,我不想做任何恶意的事情,所以没有理由结束我的问题。它可能不是恶意的,但很明显,他们采取这些措施来防止这种情况是有原因的。那么,为什么你认为你有权无视他们对网站不被废弃的愿望,不管怎么做?也许可以增加
时间。sleep()
?我投票决定结束这个问题,因为它询问如何规避商业网站的安全措施。在堆栈溢出上有许多问题询问如何在刮取时不被阻止,我不想做任何恶意的事情,所以没有理由结束我的问题。它可能不是恶意的,但很明显,他们采取这些措施来防止这种情况是有原因的。那么,为什么你认为你有权无视他们的愿望,希望他们的网站不会被废弃,不管怎样,你都可以这样做呢?看起来很有希望,谢谢看起来很有希望,谢谢
# Randomize User Agents
software_names = [SoftwareName.CHROME.value]
operating_systems = [OperatingSystem.WINDOWS.value]

user_agent_rotator = UserAgent(
    software_names=software_names, operating_systems=operating_systems, limit=1000)

user_agents = user_agent_rotator.get_user_agents()

################################################

# Selenium
options = webdriver.ChromeOptions()
options.add_argument('--profile-directory=Profile 1')
options.add_argument('use-fake-ui-for-media-stream')
options.add_argument(
    'load-extension=' + r'ad blocker path here')
options.add_argument("window-size=900,1080")

driver = webdriver.Chrome(
    ChromeDriverManager().install(), options=options)

driver.execute_cdp_cmd('Network.setUserAgentOverride', {
    "userAgent": user_agent_rotator.get_random_user_agent()})
 driver.get(url)

 ################################################

# Randomize time between requests
time.sleep(randint(5, 15))