Python 列出web url目录内容
我想列出一个外部网页的ulr的内容。我想列出这个网站的内容Python 列出web url目录内容,python,urllib,Python,Urllib,我想列出一个外部网页的ulr的内容。我想列出这个网站的内容example.com/dir/dir/images/ 目前,我可以从以下页面下载图像: urllib.urlretrieve(page_url,save_url ) 但我想列出一个目录中的所有图像,或者任何与此相关的内容 我想使用python不幸的是,只有当您导航到该目录的URI时,所涉及的web服务器将为您提供一个目录列表时,这才有效 如果是这样的话,典型的目录列表会有非常简单的标记,使它们成为各种形式的web抓取的主要候选对象。否
example.com/dir/dir/images/
目前,我可以从以下页面下载图像:
urllib.urlretrieve(page_url,save_url )
但我想列出一个目录中的所有图像,或者任何与此相关的内容
我想使用python不幸的是,只有当您导航到该目录的URI时,所涉及的web服务器将为您提供一个目录列表时,这才有效
如果是这样的话,典型的目录列表会有非常简单的标记,使它们成为各种形式的web抓取的主要候选对象。否则,您就不走运了。因此,如果web服务器确实允许这样做,我该如何做呢?这在很大程度上取决于目录列表的结构和格式,但对于典型的apache目录列表,查找页面上的每个链接将是一个良好的开端。使用谷歌搜索网页抓取和正则表达式。