使用Python Windmill进行网页抓取(如何准确等待页面完全加载)

使用Python Windmill进行网页抓取(如何准确等待页面完全加载),python,web-scraping,windmill,Python,Web Scraping,Windmill,我一直在玩windmill来尝试一些web抓取,但是API等待。forPageLoad无法检查页面是否完全呈现 在需要使用现有DOM重新加载页面的场景中,我使用waits.forElement检测DOM,以便脚本“确定”页面已加载。这会偶尔在页面加载之前检测到DOM 在firefox中加载带有windmill测试客户端的页面似乎要花很长时间。如果使用常规firefox浏览器加载同一页面,可能需要2秒钟,但在测试客户端可能需要1分钟。花这么长时间是正常的吗 最后我想知道是否有更好的替代品风车的网页

我一直在玩windmill来尝试一些web抓取,但是API等待。forPageLoad无法检查页面是否完全呈现

  • 在需要使用现有DOM重新加载页面的场景中,我使用waits.forElement检测DOM,以便脚本“确定”页面已加载。这会偶尔在页面加载之前检测到DOM

  • 在firefox中加载带有windmill测试客户端的页面似乎要花很长时间。如果使用常规firefox浏览器加载同一页面,可能需要2秒钟,但在测试客户端可能需要1分钟。花这么长时间是正常的吗

  • 最后我想知道是否有更好的替代品风车的网页垃圾?文档似乎有点稀疏

  • 请给我一些建议。谢谢:P

     client.waits.sleep(milliseconds=u'2000')
    
    2秒的绝对停顿

     client.waits.forPageLoad(timeout=u'20000')
    
    将在以后的行中等待,直到页面加载或20秒后,哪一个先到达。把它想象成一个有时间边界的断言。如果页面在20秒内加载,则通过,否则失败

    我希望这有帮助


    TD

    如何为带有AJAX请求的页面定义“页面已加载”?第三点:清除常规firefox浏览器中的缓存并尝试加载页面。需要多长时间?可以作为一种替代方法,但它使用的是文档方法。我清除了缓存,但它的加载速度仍然不如测试客户端慢。对我来说,只要加载了DOM并且填充了组合框之类的东西,页面就已经加载了。我不确定带有AJAX请求的页面意味着什么。