Python 检索包含动态加载的链接/图像的完整网页_Python_Selenium_Web Scraping_Wget_Httrack

Python 检索包含动态加载的链接/图像的完整网页

python selenium web-scraping

Python 检索包含动态加载的链接/图像的完整网页,python,selenium,web-scraping,wget,httrack,Python,Selenium,Web Scraping,Wget,Httrack,问题下载动态加载链接/图像的网站的完整脱机工作副本研究有一些关于Stackoverflow的问题（例如，）解决了这个问题，其中大多数问题的答案都是使用or，这两个问题在动态加载链接或使用srcset而不是src来加载imgtag-或通过JS-加载的任何内容的页面上都非常失败（如果我错了，请纠正我）。然而，一个相当明显的解决方案是，如果您曾经在生产中使用过Selenium，您很快就会发现这样一个决策所产生的问题（资源量大，使用完全驱动程序非常复杂，事实上它不是为此而构建的），也就是说预期解

问题

下载动态加载链接/图像的网站的完整脱机工作副本

研究

有一些关于Stackoverflow的问题（例如，）解决了这个问题，其中大多数问题的答案都是使用or，这两个问题在动态加载链接或使用

srcset

而不是

src

来加载

img

tag-或通过JS-加载的任何内容的页面上都非常失败（如果我错了，请纠正我）。然而，一个相当明显的解决方案是，如果您曾经在生产中使用过Selenium，您很快就会发现这样一个决策所产生的问题（资源量大，使用完全驱动程序非常复杂，事实上它不是为此而构建的），也就是说

预期解决方案

一个脚本（最好是python），用于解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以这样做。如果您的解决方案是“实现您自己的”，那么首先提出这个问题是毫无意义的，我正在寻求现有的实现

示例

Shopify.com

使用Wix构建的网站

现在有了无头版本的

Selenium

，以及类似于

PhantomJS

的替代方案，它们都可以与一个小脚本一起使用，以刮取任何动态加载的网站

我已经实现了一个通用的scraper，并详细解释了这个主题
，现在您可以使用Puppeter，因为它甚至可以处理javascriptLinks死机情况下的运行。仅供参考，这是刮（刮，刮，刮）而不是刮。”“报废”是指像垃圾一样扔掉东西：-(