Python 检索包含动态加载的链接/图像的完整网页

Python 检索包含动态加载的链接/图像的完整网页,python,selenium,web-scraping,wget,httrack,Python,Selenium,Web Scraping,Wget,Httrack,问题 下载动态加载链接/图像的网站的完整脱机工作副本 研究 有一些关于Stackoverflow的问题(例如,)解决了这个问题,其中大多数问题的答案都是使用or,这两个问题在动态加载链接或使用srcset而不是src来加载imgtag-或通过JS-加载的任何内容的页面上都非常失败(如果我错了,请纠正我)。然而,一个相当明显的解决方案是,如果您曾经在生产中使用过Selenium,您很快就会发现这样一个决策所产生的问题(资源量大,使用完全驱动程序非常复杂,事实上它不是为此而构建的),也就是说 预期解

问题

下载动态加载链接/图像的网站的完整脱机工作副本

研究

有一些关于Stackoverflow的问题(例如,)解决了这个问题,其中大多数问题的答案都是使用or,这两个问题在动态加载链接或使用
srcset
而不是
src
来加载
img
tag-或通过JS-加载的任何内容的页面上都非常失败(如果我错了,请纠正我)。然而,一个相当明显的解决方案是,如果您曾经在生产中使用过Selenium,您很快就会发现这样一个决策所产生的问题(资源量大,使用完全驱动程序非常复杂,事实上它不是为此而构建的),也就是说

预期解决方案

一个脚本(最好是python),用于解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以这样做。如果您的解决方案是“实现您自己的”,那么首先提出这个问题是毫无意义的,我正在寻求现有的实现

示例

  • Shopify.com
  • 使用Wix构建的网站

  • 现在有了无头版本的
    Selenium
    ,以及类似于
    PhantomJS
    的替代方案,它们都可以与一个小脚本一起使用,以刮取任何动态加载的网站


    我已经实现了一个通用的scraper,并详细解释了这个主题

    ,现在您可以使用Puppeter,因为它甚至可以处理javascriptLinks死机情况下的运行。仅供参考,这是刮(刮,刮,刮)而不是刮。”“报废”是指像垃圾一样扔掉东西:-(