python无法获取整个网页

python无法获取整个网页,python,web-crawler,scrapy,Python,Web Crawler,Scrapy,我正在做一个琐碎的项目来搜集一些数据 我发现在使用scrapy刮纸时,页面上缺少一些div 我认为这可能与请求头有关,所以我将Firefox的用户代理复制到一个伪造的,只是发现它失败了 问题可能是什么?我如何解决 我发现问题在于网页使用ajax加载一些数据,我找不到这些数据。libcurl有一个名为pycurl的python绑定。我使用pycurl模拟人类的行为来访问网站,效果很好。对于html解析,beautifulsoup是最佳选择,您可以轻松地从使用pycurl获取的html中获得所需的

我正在做一个琐碎的项目来搜集一些数据

我发现在使用scrapy刮纸时,页面上缺少一些div

我认为这可能与请求头有关,所以我将Firefox的用户代理复制到一个伪造的,只是发现它失败了

问题可能是什么?我如何解决



我发现问题在于网页使用ajax加载一些数据,我找不到这些数据。

libcurl有一个名为pycurl的python绑定。我使用pycurl模拟人类的行为来访问网站,效果很好。对于html解析,beautifulsoup是最佳选择,您可以轻松地从使用pycurl获取的html中获得所需的内容。

使用urllib2,试试这个 请求添加标题(“用户代理”,“Mozilla/4.0(兼容;MSIE 6.0;Windows NT 5.1;SV1;.NET CLR 2.0.50727)”)


我可以传递请求

如果使用
urllib2
检索页面,是否会发生这种情况?此外,您还可以尝试使用
beautifulsoup
进行刮削。虽然可能是该网站正在重新加载内容。我会先使用Firebug或wireshark等工具查看浏览器如何加载页面。@enzo“divs”是什么意思?是“DivX格式”吗?divs指的是一些div元素。@enzo您如何观察到一些div丢失了?你是如何发现遗漏的?如果scrapy不适用于您的情况,为什么不使用正则表达式来查找您需要的内容呢?如果它仅限于查找某些特定字符串而无需解析源代码,严格来说,我发现问题在于网页使用ajax加载这些信息。pycurl有效吗?