Python Beautiful Soup和Urllib 403错误_Python_Beautifulsoup_Urllib_Http Status Code 403

Python Beautiful Soup和Urllib 403错误

python

Python Beautiful Soup和Urllib 403错误,python,beautifulsoup,urllib,http-status-code-403,Python,Beautifulsoup,Urllib,Http Status Code 403,我使用Python2.7.5和BeautifulSoap4和urllib从歌词网站提取（大量）数据，并将它们存储到XML文件中。代码运行良好，直到一个神秘的时刻，Python似乎进入了一个连续工作的阶段，没有取得任何进展，也没有抛出错误。退出Python后，如果我尝试访问歌词网站，会出现以下错误：禁止的您没有访问/访问此服务器的权限此外，尝试使用ErrorDocument处理请求时遇到403禁止的错误我尝试了两个不同的网站，最后我得到了同样的错误此外，除非我使用代理，否则Python无

我使用Python2.7.5和BeautifulSoap4和urllib从歌词网站提取（大量）数据，并将它们存储到XML文件中。代码运行良好，直到一个神秘的时刻，Python似乎进入了一个连续工作的阶段，没有取得任何进展，也没有抛出错误。退出Python后，如果我尝试访问歌词网站，会出现以下错误：

禁止的

您没有访问/访问此服务器的权限

此外，尝试使用ErrorDocument处理请求时遇到403禁止的错误

我尝试了两个不同的网站，最后我得到了同样的错误

此外，除非我使用代理，否则Python无法从该网站提取数据

有没有办法解决这个问题

谢谢

你抓取的网站发现你是一个机器人，因此阻止了你。我敢打赌你不会关注这个网站的robots.txt。你可以像机器人一样自由地自我识别你的用户代理头。因此，你建议我插入一些头信息，告诉服务器我是网络浏览器或其他什么？理想情况下，你会这样做，并且做一些其他事情，尽可能地善待服务器-这只是出于礼貌。您可能应该使用不同的库，如mechanize或requests。urllib因在服务器上吝啬而臭名昭著——它没有遵循某些web标准，至少是现成的。请看我在这里的回答：那个么这个请求对于阅读HTML有好处吗？您能告诉我在导入请求库后，我应该编写什么代码来替代urllib.open（url）吗？我会指导您阅读请求文档，它非常容易阅读和理解。