Cookies 从命令行使用凭据和cookie访问网页_Cookies_Command Line_Web Scraping_Wget

Cookies 从命令行使用凭据和cookie访问网页

cookies command-line web-scraping

Cookies 从命令行使用凭据和cookie访问网页,cookies,command-line,web-scraping,wget,Cookies,Command Line,Web Scraping,Wget,我试图访问一个专有的网站，它提供了一个大型数据库的访问。数据库相当大（数十亿个条目）。数据库中的每个条目都是指向一个网页的链接，该网页本质上是一个平面文件，包含我需要的信息。我有大约2000个数据库条目和数据库中相应的网页。我正试图解决两个相关问题：如何获取wget（或任何其他类似程序）以读取cookie数据。我从google chrome下载了cookies（使用：），但由于某种原因，wget下载的html仍然无法呈现为网页。同样，我无法从命令行获取googlechrome来读取cooki

我试图访问一个专有的网站，它提供了一个大型数据库的访问。数据库相当大（数十亿个条目）。数据库中的每个条目都是指向一个网页的链接，该网页本质上是一个平面文件，包含我需要的信息。我有大约2000个数据库条目和数据库中相应的网页。我正试图解决两个相关问题：

如何获取

wget

（或任何其他类似程序）以读取cookie数据。我从google chrome下载了cookies（使用：），但由于某种原因，

wget

下载的html仍然无法呈现为网页。同样，我无法从命令行获取

googlechrome

来读取cookies。访问数据库需要这些cookie，因为它们包含我的凭据

在我的上下文中，如果该网页以PDF格式下载就可以了，但我似乎不知道如何使用

wget

或类似工具以PDF格式下载网页。我尝试使用

自动将页面另存为（），但不断出现浏览器不在我的路径中的错误


我解决了这两个问题：
问题1:我不再使用wget
、curl
和python的请求
，而是简单地使用python中的selenium
webdriver。使用selenium，我不必处理诸如传递cookies
、标题
、post
和get
之类的问题，因为它实际上打开了一个浏览器。这还有一个优点，就是当我编写使用selenium的脚本时，我可以检查页面，查看它正在做什么
问题2:Selenium有一个名为page\u source
的方法，它下载了网页的html。当我测试它时，它正确地呈现了html