python打开网页并获取源代码

python打开网页并获取源代码,python,pyqt,Python,Pyqt,我们开发了一个基于web的应用程序,带有用户登录等功能,我们还开发了一个python应用程序,该应用程序必须在该页面上获取一些数据 有什么方法可以与python和系统默认浏览器通信吗? 我们的主要目标是用系统浏览器打开一个网页,并从中获取HTML源代码?我们尝试了python webbrowser,成功地打开了网页,但无法获得源代码,并尝试了urllib2,在这种情况下,我认为我们必须使用系统默认浏览器的cookie等,我不想这样做,因为安全性 您可以尝试使用Selenium,他是为了测试而做

我们开发了一个基于web的应用程序,带有用户登录等功能,我们还开发了一个python应用程序,该应用程序必须在该页面上获取一些数据

有什么方法可以与python和系统默认浏览器通信吗? 我们的主要目标是用系统浏览器打开一个网页,并从中获取HTML源代码?我们尝试了python webbrowser,成功地打开了网页,但无法获得源代码,并尝试了urllib2,在这种情况下,我认为我们必须使用系统默认浏览器的cookie等,我不想这样做,因为安全性


您可以尝试使用Selenium,他是为了测试而做的,但没有任何东西阻止您将其用于其他目的

如果您的网站没有Javascript就可以导航,那么您可以尝试或。这些工具提供了比
urllib2
更高级别的API,让您可以跟踪页面上的链接并填写HTML表单


例如,在浏览使用基于cookie的身份验证和HTML表单进行登录的网站时,这可能会很有帮助。

看看
nltk
模块——它们有一些用于查看网页和获取文本的实用程序。还有
BeautifulSoup
,这是一个更复杂的版本。我目前正在使用这两种方法来获取学习算法的网页——它们是使用非常广泛的模块,这意味着你可以在这里找到很多提示:)

正确的方法通常是使用urllib2,它支持cookies…我们使用很多Javascript,大部分是jquery。有没有办法连接已经打开的浏览器?当我使用webdriver.Chrome()或webdriver.Firefox()时,会打开新窗口。