如何在python中使用wget下载网页(mhtml格式)

如何在python中使用wget下载网页(mhtml格式),python,python-3.x,selenium,ipython,wget,Python,Python 3.x,Selenium,Ipython,Wget,我们如何使用python语言中的wget保存包含内容的网页,使其可以脱机查看?目前我正在使用以下代码: import wget driver.webdriver.Chrome() driver.get("http://www.yahoo.com") wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml") 这可以工作并在文件夹中扫描网页的mhtml版本,但当您打开文件时

我们如何使用python语言中的wget保存包含内容的网页,使其可以脱机查看?目前我正在使用以下代码:

import wget

driver.webdriver.Chrome()
driver.get("http://www.yahoo.com")
wget.download("http://www.yahoo.com", C:\\Users\\karanjuneja\\Downloads\\kj\\yahoo.mhtml")
这可以工作并在文件夹中扫描网页的mhtml版本,但当您打开文件时,您将只看到编写的代码,而不会看到网页在线显示的方式。有什么建议吗? 谢谢
Karan

此代码将帮助您创建网站的脱机副本,您甚至可以在不访问internet的情况下拍摄和查看该网站

wget --mirror --convert-links --adjust-extension --page-requisites 
--no-parent http://example.org
--镜像–使(除其他外)下载递归

--转换链接–将所有链接(也可以转换为CSS样式表)转换为相对链接,这样就适合脱机查看

--调整扩展名–根据文件名(html或css)的内容类型向其添加合适的扩展名

--页面必备条件–下载CSS样式表和图像等脱机正确显示页面所需的内容

--无父目录–递归时,不要上升到父目录。将下载限制在站点的一部分非常有用


感谢Guy Rutenberg在他的论坛中提供了代码,这对我也有帮助。

嗨,Karthik,谢谢你的回复。我无法理解在哪里执行您提供的代码?我可以在上面的python代码中嵌入此代码吗?可以。您可以将其嵌入到代码中。或者,您也可以使用以下代码。你可以把我给你的一个放在import os path=raw_input(“输入url:”)os.system('wget-r-nd-l1--no parent-A mp3%s“%path”)驱动程序命令上面,而不是wget-r。驱动程序命令对我不起作用,但当我把它们注释掉时,第三个命令工作得很好。只需要在输出路径周围加一个起始引号。当需要它们时,您的示例中是否缺少任何代码?我在驱动程序命令中得到的错误是驱动程序无法识别。第一次使用wget,因此任何帮助都是非常感谢的。