Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/85.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python有效地分析大量网页?_Python_Html_Url_Urllib2 - Fatal编程技术网

如何使用Python有效地分析大量网页?

如何使用Python有效地分析大量网页?,python,html,url,urllib2,Python,Html,Url,Urllib2,所以我用Python创建了一个程序,收集我使用的论坛的帖子统计信息。它基本上循环浏览一长串URL,用urllib.request.urlopen打开每个URL,并收集每篇文章的信息。 我遇到的问题是,这个网站显然不喜欢我不断地打开他们的URL,并且尽可能地阻止我这样做。(我假设这是他们防止垃圾桶泛滥的方法) 在这之后,我尝试使用站点下载应用程序,比如SiteSucker。但是我的电脑没有足够的空间容纳7000页的HTML,所以这也不行 我想要的是能够用Python安全地下载每个页面,分析它的HT

所以我用Python创建了一个程序,收集我使用的论坛的帖子统计信息。它基本上循环浏览一长串URL,用urllib.request.urlopen打开每个URL,并收集每篇文章的信息。 我遇到的问题是,这个网站显然不喜欢我不断地打开他们的URL,并且尽可能地阻止我这样做。(我假设这是他们防止垃圾桶泛滥的方法)

在这之后,我尝试使用站点下载应用程序,比如SiteSucker。但是我的电脑没有足够的空间容纳7000页的HTML,所以这也不行


我想要的是能够用Python安全地下载每个页面,分析它的HTML,然后删除它,而不会被网站阻止。任何解决方案?

请求将忽略robots.txt和其他可能的bot保护,以便在您安装后使用Beautifulsoup解析html

from bs4 import BeautifulSoup
输入它。这是beautifulsoup的网站和请求的网站