Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sql-server-2005/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Beautiful Soup和Urllib 403错误_Python_Beautifulsoup_Urllib_Http Status Code 403 - Fatal编程技术网

Python Beautiful Soup和Urllib 403错误

Python Beautiful Soup和Urllib 403错误,python,beautifulsoup,urllib,http-status-code-403,Python,Beautifulsoup,Urllib,Http Status Code 403,我使用Python2.7.5和BeautifulSoap4和urllib从歌词网站提取(大量)数据,并将它们存储到XML文件中。代码运行良好,直到一个神秘的时刻,Python似乎进入了一个连续工作的阶段,没有取得任何进展,也没有抛出错误。退出Python后,如果我尝试访问歌词网站,会出现以下错误: 禁止的 您没有访问/访问此服务器的权限 此外,尝试使用ErrorDocument处理请求时遇到403禁止的错误 我尝试了两个不同的网站,最后我得到了同样的错误 此外,除非我使用代理,否则Python无

我使用Python2.7.5和BeautifulSoap4和urllib从歌词网站提取(大量)数据,并将它们存储到XML文件中。代码运行良好,直到一个神秘的时刻,Python似乎进入了一个连续工作的阶段,没有取得任何进展,也没有抛出错误。退出Python后,如果我尝试访问歌词网站,会出现以下错误:

禁止的

您没有访问/访问此服务器的权限

此外,尝试使用ErrorDocument处理请求时遇到403禁止的错误

我尝试了两个不同的网站,最后我得到了同样的错误

此外,除非我使用代理,否则Python无法从该网站提取数据

有没有办法解决这个问题


谢谢

你抓取的网站发现你是一个机器人,因此阻止了你。我敢打赌你不会关注这个网站的robots.txt。你可以像机器人一样自由地自我识别你的用户代理头。因此,你建议我插入一些头信息,告诉服务器我是网络浏览器或其他什么?理想情况下,你会这样做,并且做一些其他事情,尽可能地善待服务器-这只是出于礼貌。您可能应该使用不同的库,如mechanize或requests。urllib因在服务器上吝啬而臭名昭著——它没有遵循某些web标准,至少是现成的。请看我在这里的回答:那个么这个请求对于阅读HTML有好处吗?您能告诉我在导入请求库后,我应该编写什么代码来替代urllib.open(url)吗?我会指导您阅读请求文档,它非常容易阅读和理解。