Web crawler 从网站中提取html和所有下载附件的方法

Web crawler 从网站中提取html和所有下载附件的方法,web-crawler,Web Crawler,我希望能够运行一个脚本(或其他什么),可以“下载”某个网页(html)及其所有附件(word文档),这样我就可以保存和操作一个私人收藏 下面是故事。。。 我经常使用这个网站进行研究。在这个网站上有许多html页面,包含文本和文档(.pdf和.docs)的下载链接。有一种威胁是信息的所有者(美国政府)将“私有化”,我认为这是假的。然而,有这种威胁。我希望能够提取所有html文本和所有附件的副本,以便我可以在我的桌面上托管我自己的数据版本供个人使用(以防万一)。有没有一个简单的方法可以做到这一点 注

我希望能够运行一个脚本(或其他什么),可以“下载”某个网页(html)及其所有附件(word文档),这样我就可以保存和操作一个私人收藏

下面是故事。。。 我经常使用这个网站进行研究。在这个网站上有许多html页面,包含文本和文档(.pdf和.docs)的下载链接。有一种威胁是信息的所有者(美国政府)将“私有化”,我认为这是假的。然而,有这种威胁。我希望能够提取所有html文本和所有附件的副本,以便我可以在我的桌面上托管我自己的数据版本供个人使用(以防万一)。有没有一个简单的方法可以做到这一点


注意:我没有此Web服务器的FTP访问权限,只能访问单个网页和附件。

有很多程序可以这样做。在谷歌上搜索“”将产生大量结果。虽然我不太想重新发明轮子,但对于一个自建的解决方案,我可能会使用PHP库,但这取决于您熟悉的编程语言


希望这有帮助。

我使用wget来实现这一目的

wget --mirror --no-parent http://remotesite.gov/documents/
镜像站点的一部分时,关键是确保不提升到您感兴趣的目录之外。这就是无父标记的作用