Open source 存档的web内容而不访问网站

Open source 存档的web内容而不访问网站,open-source,html-content-extraction,webarchive,Open Source,Html Content Extraction,Webarchive,我想在不访问实际网站的情况下获取web数据 是一个保存网站快照的示例。这方面的问题是,数据在5-6个月内相当陈旧 我们是否有其他可以找到最新html内容的存档存储 谢谢您想卷曲网站吗? 您可以使用php卷曲某些网页: 也可以在Unix中使用wget或curl命令: 许多网站在多个“wget”后被阻止。我不认为wget将有助于进行广泛的调用。谢谢,我认为,curl也可以在unix命令行中使用,已更新:查看archivebox.io,它可能会很有帮助,因为它可以为您提供的网站创建一个本地的、静态的

我想在不访问实际网站的情况下获取web数据

是一个保存网站快照的示例。这方面的问题是,数据在5-6个月内相当陈旧

我们是否有其他可以找到最新html内容的存档存储


谢谢

您想卷曲网站吗? 您可以使用php卷曲某些网页:

也可以在Unix中使用wget或curl命令:

许多网站在多个“wget”后被阻止。我不认为wget将有助于进行广泛的调用。谢谢,我认为,curl也可以在unix命令行中使用,已更新:查看archivebox.io,它可能会很有帮助,因为它可以为您提供的网站创建一个本地的、静态的、可浏览的HTML快照。它可以保存HTML、JS、媒体文件、PDF、屏幕截图、静态资产等。