Python 刮削PDF';来自受密码保护的网站
我在技术支持部门工作,目前必须手动更新我们的产品手册,定期检查手册是否有更新,以及是否替换网络上保存的当前手册 我想知道是否有可能建立一个小程序来快速下载供应商网站上的所有文件,并让它们自动下载并排序到这些产品的给定文件夹中,替换该文件中当前的PDF。我还必须注意,该网站是受密码保护的,并被分类到文件夹中 这在Python中是可能的吗?我想一个每周运行一次的小程序或者一些自动更新我们手册的东西会非常有用(也是一种学习体验)Python 刮削PDF';来自受密码保护的网站,python,web-scraping,download,Python,Web Scraping,Download,我在技术支持部门工作,目前必须手动更新我们的产品手册,定期检查手册是否有更新,以及是否替换网络上保存的当前手册 我想知道是否有可能建立一个小程序来快速下载供应商网站上的所有文件,并让它们自动下载并排序到这些产品的给定文件夹中,替换该文件中当前的PDF。我还必须注意,该网站是受密码保护的,并被分类到文件夹中 这在Python中是可能的吗?我想一个每周运行一次的小程序或者一些自动更新我们手册的东西会非常有用(也是一种学习体验) 抱歉,如果我没有很好地解释这个要求,任何问题都请告诉我。您可以使用浏览器
抱歉,如果我没有很好地解释这个要求,任何问题都请告诉我。您可以使用浏览器自动化。这可以插入密码(尽管你是机器人的东西可能会阻止你),然后你可以通过设置默认下载位置并单击下载按钮下载pdf。这将使浏览器将文件下载到默认的下载位置。这当然是可能的。正如另一个答案所建议的那样,您将希望使用诸如请求(处理HTTP请求)或Selenium(自动浏览器活动)之类的库来浏览登录 您需要对给定页面上的链接进行排序,理想情况下可以使用beautifulsoup(HTML解析器),但也可以使用selenium(自动浏览器活动)进行排序。您需要查看库,如请求(处理HTTP请求)以下载pdf,用于将文件夹分类到特定文件夹并替换文件的操作系统模块 我强烈要求你仔细考虑这些步骤,但我希望这能让你对图书馆有一个概念,你需要了解一些。最具挑战性的学习将是使用selenium,因此,如果您可以使用请求进行登录,那就更好了 如果您已经基本掌握了python,那么请求、OS模块和beautifulsoup库并不难理解