无法获取python中的页面源代码
我正在尝试使用以下方法获取页面的源代码:无法获取python中的页面源代码,python,python-2.7,parsing,Python,Python 2.7,Parsing,我正在尝试使用以下方法获取页面的源代码: import urllib2 url="http://france.meteofrance.com/france/meteo?PREVISIONS_PORTLET.path=previsionsville/750560" page =urllib2.urlopen(url) data=page.read() print data 也可以使用用户代理(头) 我没有成功地获得该页面的源代码 你们有什么办法吗? 提前感谢我试过了,请求成功了,但是你收到的内容
import urllib2
url="http://france.meteofrance.com/france/meteo?PREVISIONS_PORTLET.path=previsionsville/750560"
page =urllib2.urlopen(url)
data=page.read()
print data
也可以使用用户代理(头)
我没有成功地获得该页面的源代码
你们有什么办法吗?
提前感谢我试过了,请求成功了,但是你收到的内容说你的浏览器必须接受cookies(法语)。您可能可以使用
urllib2
解决这个问题,但我认为最简单的方法是使用请求
库(如果您不介意有额外的依赖项)
要安装请求
:
pip install requests
然后在脚本中:
import requests
url = 'http://france.meteofrance.com/france/meteo?PREVISIONS_PORTLET.path=previsionsville/750560'
response = requests.get(url)
print(response.content)
我很确定页面的源代码将是您所期望的。我尝试了很多东西,“urllib”“urllib2”和许多其他东西,但有一件事对我来说适用于我所需要的一切,并解决了我所面临的任何问题。是的。这个库使用真实的浏览器进行模拟,因此它可以处理该领域的许多问题。
请求
库为我工作,如图所示
另外,在另一个帖子中,我注意到以下注意事项:
编辑:现在是2014年,大多数重要的图书馆
如果可以的话,你一定要使用Python3。
PythonRequests是一个非常好的高级库,更易于使用
使用urllib2
所以我写了这个获取页面的过程:
import requests
def get_page (website_url):
response = requests.get(website_url)
return response.content
print get_page('http://example.com')
干杯 有什么问题吗?这似乎对我有用,对我也有用。你上网了吗?你得到的不是完整的源代码!试着打开页面,你会看到不同之处似乎页面中有隐藏的输入