如何使用Python有效地分析大量网页?
所以我用Python创建了一个程序,收集我使用的论坛的帖子统计信息。它基本上循环浏览一长串URL,用urllib.request.urlopen打开每个URL,并收集每篇文章的信息。 我遇到的问题是,这个网站显然不喜欢我不断地打开他们的URL,并且尽可能地阻止我这样做。(我假设这是他们防止垃圾桶泛滥的方法) 在这之后,我尝试使用站点下载应用程序,比如SiteSucker。但是我的电脑没有足够的空间容纳7000页的HTML,所以这也不行如何使用Python有效地分析大量网页?,python,html,url,urllib2,Python,Html,Url,Urllib2,所以我用Python创建了一个程序,收集我使用的论坛的帖子统计信息。它基本上循环浏览一长串URL,用urllib.request.urlopen打开每个URL,并收集每篇文章的信息。 我遇到的问题是,这个网站显然不喜欢我不断地打开他们的URL,并且尽可能地阻止我这样做。(我假设这是他们防止垃圾桶泛滥的方法) 在这之后,我尝试使用站点下载应用程序,比如SiteSucker。但是我的电脑没有足够的空间容纳7000页的HTML,所以这也不行 我想要的是能够用Python安全地下载每个页面,分析它的HT
我想要的是能够用Python安全地下载每个页面,分析它的HTML,然后删除它,而不会被网站阻止。任何解决方案?请求将忽略robots.txt和其他可能的bot保护,以便在您安装后使用Beautifulsoup解析html
from bs4 import BeautifulSoup
输入它。这是beautifulsoup的网站和请求的网站