Cookies 从命令行使用凭据和cookie访问网页

Cookies 从命令行使用凭据和cookie访问网页,cookies,command-line,web-scraping,wget,Cookies,Command Line,Web Scraping,Wget,我试图访问一个专有的网站,它提供了一个大型数据库的访问。数据库相当大(数十亿个条目)。数据库中的每个条目都是指向一个网页的链接,该网页本质上是一个平面文件,包含我需要的信息。 我有大约2000个数据库条目和数据库中相应的网页。我正试图解决两个相关问题: 如何获取wget(或任何其他类似程序)以读取cookie数据。我从google chrome下载了cookies(使用:),但由于某种原因,wget下载的html仍然无法呈现为网页。同样,我无法从命令行获取googlechrome来读取cooki

我试图访问一个专有的网站,它提供了一个大型数据库的访问。数据库相当大(数十亿个条目)。数据库中的每个条目都是指向一个网页的链接,该网页本质上是一个平面文件,包含我需要的信息。 我有大约2000个数据库条目和数据库中相应的网页。我正试图解决两个相关问题:

  • 如何获取
    wget
    (或任何其他类似程序)以读取cookie数据。我从google chrome下载了cookies(使用:),但由于某种原因,
    wget
    下载的html仍然无法呈现为网页。同样,我无法从命令行获取
    googlechrome
    来读取cookies。访问数据库需要这些cookie,因为它们包含我的凭据
  • 在我的上下文中,如果该网页以PDF格式下载就可以了,但我似乎不知道如何使用
    wget
    或类似工具以PDF格式下载网页。我尝试使用
    自动将页面另存为
    (),但不断出现浏览器不在我的路径中的错误

  • 我解决了这两个问题:

    问题1:我不再使用
    wget
    curl
    和python的
    请求
    ,而是简单地使用python中的
    selenium
    webdriver。使用selenium,我不必处理诸如传递
    cookies
    标题
    post
    get
    之类的问题,因为它实际上打开了一个浏览器。这还有一个优点,就是当我编写使用selenium的脚本时,我可以检查页面,查看它正在做什么

    问题2:Selenium有一个名为
    page\u source
    的方法,它下载了网页的html。当我测试它时,它正确地呈现了html