python无法获取整个网页_Python_Web Crawler_Scrapy

python无法获取整个网页

python web-crawler scrapy

python无法获取整个网页,python,web-crawler,scrapy,Python,Web Crawler,Scrapy,我正在做一个琐碎的项目来搜集一些数据我发现在使用scrapy刮纸时，页面上缺少一些div 我认为这可能与请求头有关，所以我将Firefox的用户代理复制到一个伪造的，只是发现它失败了问题可能是什么？我如何解决我发现问题在于网页使用ajax加载一些数据，我找不到这些数据。libcurl有一个名为pycurl的python绑定。我使用pycurl模拟人类的行为来访问网站，效果很好。对于html解析，beautifulsoup是最佳选择，您可以轻松地从使用pycurl获取的html中获得所需的

我正在做一个琐碎的项目来搜集一些数据

我发现在使用scrapy刮纸时，页面上缺少一些div

我认为这可能与请求头有关，所以我将Firefox的用户代理复制到一个伪造的，只是发现它失败了

问题可能是什么？我如何解决

我发现问题在于网页使用ajax加载一些数据，我找不到这些数据。

libcurl有一个名为pycurl的python绑定。我使用pycurl模拟人类的行为来访问网站，效果很好。对于html解析，beautifulsoup是最佳选择，您可以轻松地从使用pycurl获取的html中获得所需的内容。

使用urllib2，试试这个请求添加标题（“用户代理”，“Mozilla/4.0（兼容；MSIE 6.0；Windows NT 5.1；SV1；.NET CLR 2.0.50727）”）

我可以传递请求

如果使用

urllib2

检索页面，是否会发生这种情况？此外，您还可以尝试使用

beautifulsoup

进行刮削。虽然可能是该网站正在重新加载内容。我会先使用Firebug或wireshark等工具查看浏览器如何加载页面。@enzo“divs”是什么意思？是“DivX格式”吗？divs指的是一些div元素。@enzo您如何观察到一些div丢失了？你是如何发现遗漏的？如果scrapy不适用于您的情况，为什么不使用正则表达式来查找您需要的内容呢？如果它仅限于查找某些特定字符串而无需解析源代码，严格来说，我发现问题在于网页使用ajax加载这些信息。pycurl有效吗？