仅仅提供网站的URL就可以获得包含css的网站的完整源代码吗+;python

仅仅提供网站的URL就可以获得包含css的网站的完整源代码吗+;python,python,Python,我正在寻找一个python脚本,它获取网站的URL,并且可以将完整的HTML源代码和css链接下载到我运行python脚本的本地计算机中 有人能帮我吗?是的,很简单。您可以使用(用于curl的python绑定) 但是(很可能)您将得到的是经过处理的html+javascript(即客户端浏览器读取的内容) 至于javascript,大多数生产/商业网站都使用javascript框架,这些框架试图优化代码,从而使人类无法阅读。 HTML也是如此,许多框架都允许为HTML(可扩展模板)创建层次结构,

我正在寻找一个python脚本,它获取网站的URL,并且可以将完整的HTML源代码和css链接下载到我运行python脚本的本地计算机中


有人能帮我吗?

是的,很简单。您可以使用(用于curl的python绑定)

但是(很可能)您将得到的是经过处理的html+javascript(即客户端浏览器读取的内容)

至于javascript,大多数生产/商业网站都使用javascript框架,这些框架试图优化代码,从而使人类无法阅读。 HTML也是如此,许多框架都允许为HTML(可扩展模板)创建层次结构,因此,您将得到每页一个HTML,它(很可能)由框架使用许多(模板)文件生成。
Css比其他2;)稍微简单一点

我同意0xc0de和Joddy。PyCurl和HTTrack可以做你想做的事情。如果您使用的是“Nix操作系统”,也可以使用
wget

是的,有可能。事实上,我写完了你几天前描述的一个剧本我不会在这里发布脚本,但我会根据我所做的给你一些提示

  • 下载网页。您可以使用
    urlib2.urlopen
    (Python 2.x)或
    urllib.request.urlopen
    (Python3)
  • 然后在下载页面后,解析 下载页面(你也可以在线解析源代码,但是 这意味着另一个呼叫
    urllib2.urlopen
    /
    urllib.request.urlopen
    )并获取所有链接 你需要。你可以用这个。然后下载您需要的所有内容(使用步骤1中用于下载网页的相同代码)
  • 通过将所有
    href
    /
    src
    更改为本地页面来更新本地页面 css/image/js文件的路径。您可以使用
    fileinput
    替换在位文本。 有关更多详细信息,请参阅此
  • 就这样。您必须担心的可选内容包括使用代理连接/从网络下载(如果您落后于代理)、创建文件夹和记录器


    你也可以使用。检查这个如何使用Scrapy抓取网站

    使用CURL检索页面,解析链接,然后检索文件。如果你想下载网站,并且需要使用软件