Python Selenium,模仿真实用户的最佳方式是什么?

Python Selenium,模仿真实用户的最佳方式是什么?,python,selenium,web-scraping,Python,Selenium,Web Scraping,我一直在使用Selenium和Google Colab从拍卖网站下载卖家数据。我已经有好几个星期无法下载该网站的内容了。我添加了假用户,但结果是一样的。否则,我如何才能像一个真正的用户一样下载页面 我的代码: from selenium import webdriver from selenium.webdriver.chrome.options import Options from fake_useragent import UserAgent options = webdriver.Ch

我一直在使用Selenium和Google Colab从拍卖网站下载卖家数据。我已经有好几个星期无法下载该网站的内容了。我添加了假用户,但结果是一样的。否则,我如何才能像一个真正的用户一样下载页面

我的代码:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from fake_useragent import UserAgent

options = webdriver.ChromeOptions()

ua = UserAgent(use_cache_server=False)
userAgent = ua.random
print(userAgent)

options.add_argument("window-size=1280,800")
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--disable-blink-features=AutomationControlled')
options.add_argument(f'user-agent={userAgent}')

driver = webdriver.Chrome(options=options)
driver.get("https://allegro.pl/oferta/zageszczarka-6-5km-90kg-higher-briggs-gratisy-9003885105#aboutSeller")
print(driver.page_source)
结果:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36
<html><head><title>allegro.pl</title><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style><meta name="viewport" content="width=device-width, initial-scale=1.0"></head><body style="margin:0"><script>var dd={'cid':'AHrlqAAAAAMAOIflZgDZm2IAI-ywFA==','hsh':'77DC0FFBAA0B77570F6B414F8E5BDB','t':'fe','s':29560,'host':'geo.captcha-delivery.com'}</script><script src="https://ct.captcha-delivery.com/c.js"></script><script>if("string"==typeof navigator.userAgent&&navigator.userAgent.indexOf("Firefox")>-1){var isIframeLoaded=!1,maxTimeoutMs=5e3;function iframeOnload(e){isIframeLoaded=!0;var a=document.getElementById("noiframe");a&&a.parentNode.removeChild(a)}var initialTime=(new Date).getTime();setTimeout(function(){isIframeLoaded||(new Date).getTime()-initialTime>maxTimeoutMs&&(document.body.innerHTML='<div id="noiframe">Please enable JS and disable any ad blocker</div>'+document.body.innerHTML)},maxTimeoutMs)}else function iframeOnload(){}</script><iframe src="https://geo.captcha-delivery.com/captcha/?initialCid=AHrlqAAAAAMAOIflZgDZm2IAI-ywFA%3D%3D&amp;hash=77DC0FFBAA0B77570F6B414F8E5BDB&amp;cid=ak0Wk_5LBEPLw9rTmErZ~211JLk9IruT-DV3pn2r.NzAZ_JOOcDsOjFjoiO8O88Uty8imz7f4IXqYdOqun_vy9SJOl7y7x-cu4m.D1jxOt&amp;t=fe&amp;referer=https%3A%2F%2Fallegro.pl%2Foferta%2Fzageszczarka-6-5km-90kg-higher-briggs-gratisy-9003885105%23aboutSeller&amp;s=29560" width="100%" height="100%" style="height:100vh;" frameborder="0" border="0" scrolling="yes" onload="iframeOnload()"></iframe>
</body></html>
Mozilla/5.0(Windows NT 6.1;WOW64)AppleWebKit/537.36(KHTML,如Gecko)Chrome/41.0.2227.0 Safari/537.36
allegro.pl#cmsg{animation:A 1.5s;}@关键帧A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}var dd={cid':'ahrlqaaaaaaaamaaoiflzgdzgm2iai-ywFA=','hsh':'77dc0ffbaa0b77570b570f6b414f8f8bbdb','s','t':'fe','s','s':29560,'host':'geo.captcha delivery.com'}如果字符串('usernavigator.index='userf='usernavigator.index='userf.xoffirefox.js.js.jsf={var isIframeLoaded=!1,maxTimeoutMs=5e3;函数iframeOnload(e){isIframeLoaded=!0;var a=document.getElementById(“noiframe”);a&&a.parentNode.removeChild(a)}var initialTime=(新日期)。getTime();setTimeout(函数(){isIframeLoaded | |(新日期)。getTime()-initialTime>maxTimeoutMs&&(document.body.innerHTML='请启用JS并禁用任何广告拦截器'+document.body.innerHTML)},maxTimeoutMs)}其他函数iframeOnload(){}

我查看了该网站,如果您使用Selenium Chrome浏览器,它似乎可以将IP列入黑名单

这应该可以工作(头部模式,无头模式不保证)

此外,运行GoogleColab的服务器不应该有被列入黑名单的IP。如果是的话,你真的不能做任何事情



编辑:您可以在此处了解更多有关站点如何检测Selenium驱动程序的信息:

fake_useragent
和其他用户代理生成模块提供非常旧的用户代理。您是否可以尝试硬编码您自己的用户浏览器的用户代理,看看您是否能够刮取?如果可以,则只需收集更多新的用户代理,并随机使用它们,而不是使用n使用模块。Selenium/webdriver插入了一些头文件,使其看起来像机器人。您可以在Selenium Python中搜索如何避免reCaptcha,您会找到需要添加的头文件。@ShreyeshDesai我使用浏览器中的代理:
Mozilla/5.0(X11;Linux x8664)AppleWebKit/537.36(KHTML,像Gecko)Chrome/89.0.4389.114 Safari/537.36
具有相同的结果