Python Beautiful Soup和Urllib 403错误
我使用Python2.7.5和BeautifulSoap4和urllib从歌词网站提取(大量)数据,并将它们存储到XML文件中。代码运行良好,直到一个神秘的时刻,Python似乎进入了一个连续工作的阶段,没有取得任何进展,也没有抛出错误。退出Python后,如果我尝试访问歌词网站,会出现以下错误: 禁止的 您没有访问/访问此服务器的权限 此外,尝试使用ErrorDocument处理请求时遇到403禁止的错误 我尝试了两个不同的网站,最后我得到了同样的错误 此外,除非我使用代理,否则Python无法从该网站提取数据 有没有办法解决这个问题Python Beautiful Soup和Urllib 403错误,python,beautifulsoup,urllib,http-status-code-403,Python,Beautifulsoup,Urllib,Http Status Code 403,我使用Python2.7.5和BeautifulSoap4和urllib从歌词网站提取(大量)数据,并将它们存储到XML文件中。代码运行良好,直到一个神秘的时刻,Python似乎进入了一个连续工作的阶段,没有取得任何进展,也没有抛出错误。退出Python后,如果我尝试访问歌词网站,会出现以下错误: 禁止的 您没有访问/访问此服务器的权限 此外,尝试使用ErrorDocument处理请求时遇到403禁止的错误 我尝试了两个不同的网站,最后我得到了同样的错误 此外,除非我使用代理,否则Python无
谢谢 你抓取的网站发现你是一个机器人,因此阻止了你。我敢打赌你不会关注这个网站的robots.txt。你可以像机器人一样自由地自我识别你的用户代理头。因此,你建议我插入一些头信息,告诉服务器我是网络浏览器或其他什么?理想情况下,你会这样做,并且做一些其他事情,尽可能地善待服务器-这只是出于礼貌。您可能应该使用不同的库,如mechanize或requests。urllib因在服务器上吝啬而臭名昭著——它没有遵循某些web标准,至少是现成的。请看我在这里的回答:那个么这个请求对于阅读HTML有好处吗?您能告诉我在导入请求库后,我应该编写什么代码来替代urllib.open(url)吗?我会指导您阅读请求文档,它非常容易阅读和理解。