Web crawler 从网站中提取html和所有下载附件的方法_Web Crawler

Web crawler 从网站中提取html和所有下载附件的方法

web-crawler

Web crawler 从网站中提取html和所有下载附件的方法,web-crawler,Web Crawler,我希望能够运行一个脚本（或其他什么），可以“下载”某个网页（html）及其所有附件（word文档），这样我就可以保存和操作一个私人收藏下面是故事。。。我经常使用这个网站进行研究。在这个网站上有许多html页面，包含文本和文档（.pdf和.docs）的下载链接。有一种威胁是信息的所有者（美国政府）将“私有化”，我认为这是假的。然而，有这种威胁。我希望能够提取所有html文本和所有附件的副本，以便我可以在我的桌面上托管我自己的数据版本供个人使用（以防万一）。有没有一个简单的方法可以做到这一点注

我希望能够运行一个脚本（或其他什么），可以“下载”某个网页（html）及其所有附件（word文档），这样我就可以保存和操作一个私人收藏

下面是故事。。。我经常使用这个网站进行研究。在这个网站上有许多html页面，包含文本和文档（.pdf和.docs）的下载链接。有一种威胁是信息的所有者（美国政府）将“私有化”，我认为这是假的。然而，有这种威胁。我希望能够提取所有html文本和所有附件的副本，以便我可以在我的桌面上托管我自己的数据版本供个人使用（以防万一）。有没有一个简单的方法可以做到这一点

注意：我没有此Web服务器的FTP访问权限，只能访问单个网页和附件。

有很多程序可以这样做。在谷歌上搜索“”将产生大量结果。虽然我不太想重新发明轮子，但对于一个自建的解决方案，我可能会使用PHP库，但这取决于您熟悉的编程语言

希望这有帮助。

我使用wget来实现这一目的

wget --mirror --no-parent http://remotesite.gov/documents/

镜像站点的一部分时，关键是确保不提升到您感兴趣的目录之外。这就是无父标记的作用