Open source 存档的web内容而不访问网站_Open Source_Html Content Extraction_Webarchive

Open source 存档的web内容而不访问网站

open-source

Open source 存档的web内容而不访问网站,open-source,html-content-extraction,webarchive,Open Source,Html Content Extraction,Webarchive,我想在不访问实际网站的情况下获取web数据是一个保存网站快照的示例。这方面的问题是，数据在5-6个月内相当陈旧我们是否有其他可以找到最新html内容的存档存储谢谢您想卷曲网站吗？您可以使用php卷曲某些网页：也可以在Unix中使用wget或curl命令：许多网站在多个“wget”后被阻止。我不认为wget将有助于进行广泛的调用。谢谢，我认为，curl也可以在unix命令行中使用，已更新：查看archivebox.io，它可能会很有帮助，因为它可以为您提供的网站创建一个本地的、静态的

我想在不访问实际网站的情况下获取web数据

是一个保存网站快照的示例。这方面的问题是，数据在5-6个月内相当陈旧

我们是否有其他可以找到最新html内容的存档存储

谢谢

您想卷曲网站吗？您可以使用php卷曲某些网页：

也可以在Unix中使用wget或curl命令：

许多网站在多个“wget”后被阻止。我不认为wget将有助于进行广泛的调用。谢谢，我认为，curl也可以在unix命令行中使用，已更新：查看archivebox.io，它可能会很有帮助，因为它可以为您提供的网站创建一个本地的、静态的、可浏览的HTML快照。它可以保存HTML、JS、媒体文件、PDF、屏幕截图、静态资产等。