Javascript Selenium python返回页眉而不是正文_Javascript_Html_Python 3.x_Selenium_Selenium Chromedriver

Javascript Selenium python返回页眉而不是正文

javascript html python-3.x selenium

Javascript Selenium python返回页眉而不是正文,javascript,html,python-3.x,selenium,selenium-chromedriver,Javascript,Html,Python 3.x,Selenium,Selenium Chromedriver,我已经用这个敲了几个小时的脑袋了。几周前，我构建了一段代码，它使用python selenium并继续运行以获取一个新的应用程序直到今天代码停止工作，一切都很好。为了理解它为什么会被破坏，我显示了页面源代码，让我惊讶的是，我发现我得到的是带有javascript（我不理解）的页眉，而不是正文，字面上的。代码本身运行良好，我已经在其他URL（如python.org/）上对其进行了测试我正在Ubuntu 18.04.3 LTS上使用selenium 3.141.0和python 3.6.9、Ch

我已经用这个敲了几个小时的脑袋了。几周前，我构建了一段代码，它使用python selenium并继续运行以获取一个新的应用程序

直到今天代码停止工作，一切都很好。为了理解它为什么会被破坏，我显示了页面源代码，让我惊讶的是，我发现我得到的是带有javascript（我不理解）的页眉，而不是正文，字面上的

。代码本身运行良好，我已经在其他URL（如python.org/）上对其进行了测试

我正在Ubuntu 18.04.3 LTS上使用selenium 3.141.0和python 3.6.9、Chrome chromedriver 79.0.3945.79。这是重现我的问题的最小代码

#如果直接在google colab上运行
!更新源
!apt安装铬驱动装置
!pip安装selenium

我尝试了各种不同的用户代理，试图愚弄他们可能有的任何反刮刀。已检查iFrame，但没有

导入时间
从selenium导入webdriver
从bs4进口美汤作为汤
chrome\u options=webdriver.ChromeOptions（）
chrome_选项。添加_参数（'--headless'）
chrome_选项。添加_参数（'--no sandbox'）
chrome_选项。添加_参数（'--disable dev shm usage'）
user_agent=“Mozilla/5.0（Windows NT 10.0；Win64；x64）AppleWebKit/537.36（KHTML，如Gecko）Chrome/74.0.3729.169 Safari/537.36”
chrome_选项。添加_参数（“用户代理=”+用户代理）
wd=webdriver.Chrome（'chromedriver'，options=Chrome\u options）
url=”https://www.continente.pt/stores/continente/pt-pt/public/Pages/category.aspx?cat=Mercearia#/"
wd.get（url）
时间。睡眠（30）
打印（汤（wd.page_来源））

我需要运行一些javascript来加载内容吗？我没有主意了。

如果您运行此脚本并删除

--headless

选项，页面是否实际加载？他们可能试图检测网络爬虫。我试图使用Chromedriver加载url，但不起作用。该url可以加载到IE webdriver上，但脚本卡在

wd.get（url）上

@GregBurghardt如果我删除

--headless

选项，我就不能再从服务器上运行代码了，最终目标是让它在AWS上自动运行。@JiWei你能用IE webdriver获取页面的正文吗？我只是想弄清楚headless模式的行为是否与非headless模式不同。另外，服务器上运行的是哪个版本的Chrome？