Javascript Python urllib2返回noscript内容
我正在尝试使用python 2.7.3和urllib2获取几个页面的html内容。 对于大多数页面,它工作正常,但有些页面(如)会将以下内容返回给我: 此页面最好在启用样式表(CSS)的最新web浏览器中查看。虽然您可以在当前浏览器中查看此页面的内容,但无法获得完整的视觉体验。请考虑升级您的浏览器软件或启用样式表(CSS),如果您能够这样做。 需要javascript的页面也会出现此问题。我只返回noscript标记中的内容 以下是我获取内容的方式:Javascript Python urllib2返回noscript内容,javascript,python,urllib2,Javascript,Python,Urllib2,我正在尝试使用python 2.7.3和urllib2获取几个页面的html内容。 对于大多数页面,它工作正常,但有些页面(如)会将以下内容返回给我: 此页面最好在启用样式表(CSS)的最新web浏览器中查看。虽然您可以在当前浏览器中查看此页面的内容,但无法获得完整的视觉体验。请考虑升级您的浏览器软件或启用样式表(CSS),如果您能够这样做。 需要javascript的页面也会出现此问题。我只返回noscript标记中的内容 以下是我获取内容的方式: cj = cookielib.CookieJ
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
response = urllib2.urlopen(url).read().decode("utf-8")
需要额外的标题吗?听起来像是在javascript/ajax尝试之前获取原始HTML页面。尝试使用
webkit
获取应用了JavaScript的页面。请参阅,以获取带有链接的答案。在我看来像是用户代理检测。你可以尝试添加一个仿效浏览器的伪造用户代理头,例如Mozilla/5.0(Macintosh;Intel Mac OS X 10.8;rv:20.0)Gecko/20100101 Firefox/20.0
。为什么不使用更友好的请求
库呢?我用requessts库和@Xion的头试过了。还是没有成功,也许我做错了什么