Python 编写脚本以下载服务器上的所有内容

Python 编写脚本以下载服务器上的所有内容,python,bash,http,web-crawler,Python,Bash,Http,Web Crawler,我想下载此网站上可公开访问的所有文件: https://www.duo.uio.no/ 这是奥斯陆大学的网站,我们可以从大学档案中找到所有可公开获得的论文。我尝试了一个爬虫程序,但是网站设置了一些机制来阻止爬虫访问他们的文档。还有其他的方法吗 在最初的问题中没有提到这一点,但我想要的是服务器上的所有pdf文件。我尝试了SiteSucker,但这似乎只是下载网站本身。您可以尝试使用SiteSucker(),它允许您下载网站的内容,而忽略他们可能制定的任何规则 wget--recursive--n

我想下载此网站上可公开访问的所有文件:

https://www.duo.uio.no/
这是奥斯陆大学的网站,我们可以从大学档案中找到所有可公开获得的论文。我尝试了一个爬虫程序,但是网站设置了一些机制来阻止爬虫访问他们的文档。还有其他的方法吗


在最初的问题中没有提到这一点,但我想要的是服务器上的所有pdf文件。我尝试了SiteSucker,但这似乎只是下载网站本身。

您可以尝试使用SiteSucker(),它允许您下载网站的内容,而忽略他们可能制定的任何规则

wget--recursive--no clobber--page requisites--html扩展名--convert links--restrict file names=unix,ascii--domains your-site.com--no parenthttp://your-site.com


试试看

什么是“爬虫”?你是说
wget
还是
curl
?如果不是,那么试试这些。如果您想使用python,请看一下Selenium。这并不适合python,但可能会有所帮助。这所大学很乐意免费提供这些文档,但请求您不要攻击他们的服务器。所以请表现出一点尊重!确定您实际需要的文档,并使用wget(或自定义脚本)仅对这些文件进行DL,最好是小批量。如果你真的必须得到他们所有的PDF文件,wget可以很容易地让你这么做。看看wget人,如果只是一个like,你可以把它作为一个评论,因为它没有回答问题。谢谢,我会的。我忘了在我的问题中提到,我真正想做的是获取服务器上的所有pdf文件。有没有办法使用wget只返回pdf文件?很抱歉没有说这个问题。我的脚本将返回整个网站,如果你只需要pdf文件,那么你需要另一个way@ArashSaidi如果不首先获得链接到PDF文件的页面,你就无法真正获得PDF文件-这是任何程序爬网网站的方式。但是你可以下载整个网站,然后从站点的本地副本存储pdffiles@IvanIvanovich好的,但是有没有办法让爬虫程序将pdf文件存储在一个特定的文件夹中,这样我就不必在以后搜索和查找文件了(我的意思是,我想我以后可以为此编写一个脚本)。