Python 编写脚本以下载服务器上的所有内容_Python_Bash_Http_Web Crawler

Python 编写脚本以下载服务器上的所有内容

python bash http web-crawler

Python 编写脚本以下载服务器上的所有内容,python,bash,http,web-crawler,Python,Bash,Http,Web Crawler,我想下载此网站上可公开访问的所有文件： https://www.duo.uio.no/ 这是奥斯陆大学的网站，我们可以从大学档案中找到所有可公开获得的论文。我尝试了一个爬虫程序，但是网站设置了一些机制来阻止爬虫访问他们的文档。还有其他的方法吗在最初的问题中没有提到这一点，但我想要的是服务器上的所有pdf文件。我尝试了SiteSucker，但这似乎只是下载网站本身。您可以尝试使用SiteSucker（），它允许您下载网站的内容，而忽略他们可能制定的任何规则 wget--recursive--n

我想下载此网站上可公开访问的所有文件：

https://www.duo.uio.no/

这是奥斯陆大学的网站，我们可以从大学档案中找到所有可公开获得的论文。我尝试了一个爬虫程序，但是网站设置了一些机制来阻止爬虫访问他们的文档。还有其他的方法吗

在最初的问题中没有提到这一点，但我想要的是服务器上的所有pdf文件。我尝试了SiteSucker，但这似乎只是下载网站本身。

您可以尝试使用SiteSucker（），它允许您下载网站的内容，而忽略他们可能制定的任何规则

wget--recursive--no clobber--page requisites--html扩展名--convert links--restrict file names=unix，ascii--domains your-site.com--no parenthttp://your-site.com

试试看

什么是“爬虫”？你是说

wget

还是

curl

？如果不是，那么试试这些。如果您想使用python，请看一下Selenium。这并不适合python，但可能会有所帮助。这所大学很乐意免费提供这些文档，但请求您不要攻击他们的服务器。所以请表现出一点尊重！确定您实际需要的文档，并使用wget（或自定义脚本）仅对这些文件进行DL，最好是小批量。如果你真的必须得到他们所有的PDF文件，wget可以很容易地让你这么做。看看wget人，如果只是一个like，你可以把它作为一个评论，因为它没有回答问题。谢谢，我会的。我忘了在我的问题中提到，我真正想做的是获取服务器上的所有pdf文件。有没有办法使用wget只返回pdf文件？很抱歉没有说这个问题。我的脚本将返回整个网站，如果你只需要pdf文件，那么你需要另一个way@ArashSaidi如果不首先获得链接到PDF文件的页面，你就无法真正获得PDF文件-这是任何程序爬网网站的方式。但是你可以下载整个网站，然后从站点的本地副本存储pdffiles@IvanIvanovich好的，但是有没有办法让爬虫程序将pdf文件存储在一个特定的文件夹中，这样我就不必在以后搜索和查找文件了（我的意思是，我想我以后可以为此编写一个脚本）。