Python爬虫下载图像和其他数据

Python爬虫下载图像和其他数据,python,Python,我试图抓取的站点包含数千个用户页面,我想在另一个站点上抓取并输出这些页面。例如,example.com列出了用户的照片、姓名和标题。代码看起来与此类似: <a href="/tommy"><img src="userphoto"></a> <h1 class="username">Tommy</h1> <p class="headline">President</p> 要访问我需要爬网的页面,您可以访问exam

我试图抓取的站点包含数千个用户页面,我想在另一个站点上抓取并输出这些页面。例如,example.com列出了用户的照片、姓名和标题。代码看起来与此类似:

<a href="/tommy"><img src="userphoto"></a>
<h1 class="username">Tommy</h1>
<p class="headline">President</p>

要访问我需要爬网的页面,您可以访问example.com?id=1,一直到id 100。每个页面包含大约50个用户。我如何抓取example.com上的100个页面中的每个页面,抓取用户的照片、姓名和标题,然后将这些内容输出到另一个站点?请帮忙

您可以使用以下工具自行完成:

用于获取从1到100的id 获取页面的请求 lxml或BeautifulSoup获取页面上的元素 再次请求或pyCurl下载图像 或者您可以使用frameworkscrapy


在这两种情况下,您都必须学习它。

如果您愿意使用其他人已经编写的代码,请尝试一下。功能相当齐全。

使用Scrapy。做你想做的事情会很简单。