Cookies 从命令行使用凭据和cookie访问网页
我试图访问一个专有的网站,它提供了一个大型数据库的访问。数据库相当大(数十亿个条目)。数据库中的每个条目都是指向一个网页的链接,该网页本质上是一个平面文件,包含我需要的信息。 我有大约2000个数据库条目和数据库中相应的网页。我正试图解决两个相关问题:Cookies 从命令行使用凭据和cookie访问网页,cookies,command-line,web-scraping,wget,Cookies,Command Line,Web Scraping,Wget,我试图访问一个专有的网站,它提供了一个大型数据库的访问。数据库相当大(数十亿个条目)。数据库中的每个条目都是指向一个网页的链接,该网页本质上是一个平面文件,包含我需要的信息。 我有大约2000个数据库条目和数据库中相应的网页。我正试图解决两个相关问题: 如何获取wget(或任何其他类似程序)以读取cookie数据。我从google chrome下载了cookies(使用:),但由于某种原因,wget下载的html仍然无法呈现为网页。同样,我无法从命令行获取googlechrome来读取cooki
wget
(或任何其他类似程序)以读取cookie数据。我从google chrome下载了cookies(使用:),但由于某种原因,wget
下载的html仍然无法呈现为网页。同样,我无法从命令行获取googlechrome
来读取cookies。访问数据库需要这些cookie,因为它们包含我的凭据wget
或类似工具以PDF格式下载网页。我尝试使用自动将页面另存为(),但不断出现浏览器不在我的路径中的错误
我解决了这两个问题: 问题1:我不再使用
wget
、curl
和python的请求
,而是简单地使用python中的selenium
webdriver。使用selenium,我不必处理诸如传递cookies
、标题
、post
和get
之类的问题,因为它实际上打开了一个浏览器。这还有一个优点,就是当我编写使用selenium的脚本时,我可以检查页面,查看它正在做什么
问题2:Selenium有一个名为page\u source
的方法,它下载了网页的html。当我测试它时,它正确地呈现了html