Python 检索包含动态加载的链接/图像的完整网页
问题 下载动态加载链接/图像的网站的完整脱机工作副本 研究 有一些关于Stackoverflow的问题(例如,)解决了这个问题,其中大多数问题的答案都是使用or,这两个问题在动态加载链接或使用Python 检索包含动态加载的链接/图像的完整网页,python,selenium,web-scraping,wget,httrack,Python,Selenium,Web Scraping,Wget,Httrack,问题 下载动态加载链接/图像的网站的完整脱机工作副本 研究 有一些关于Stackoverflow的问题(例如,)解决了这个问题,其中大多数问题的答案都是使用or,这两个问题在动态加载链接或使用srcset而不是src来加载imgtag-或通过JS-加载的任何内容的页面上都非常失败(如果我错了,请纠正我)。然而,一个相当明显的解决方案是,如果您曾经在生产中使用过Selenium,您很快就会发现这样一个决策所产生的问题(资源量大,使用完全驱动程序非常复杂,事实上它不是为此而构建的),也就是说 预期解
srcset
而不是src
来加载img
tag-或通过JS-加载的任何内容的页面上都非常失败(如果我错了,请纠正我)。然而,一个相当明显的解决方案是,如果您曾经在生产中使用过Selenium,您很快就会发现这样一个决策所产生的问题(资源量大,使用完全驱动程序非常复杂,事实上它不是为此而构建的),也就是说
预期解决方案
一个脚本(最好是python),用于解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以这样做。如果您的解决方案是“实现您自己的”,那么首先提出这个问题是毫无意义的,我正在寻求现有的实现
示例
现在有了无头版本的
Selenium
,以及类似于PhantomJS
的替代方案,它们都可以与一个小脚本一起使用,以刮取任何动态加载的网站
我已经实现了一个通用的scraper,并详细解释了这个主题,现在您可以使用Puppeter,因为它甚至可以处理javascriptLinks死机情况下的运行。仅供参考,这是刮(刮,刮,刮)而不是刮。”“报废”是指像垃圾一样扔掉东西:-(