Python 我的代码返回HTTP错误403：禁止_Python_Beautifulsoup_Request_Screen Scraping_Urllib

Python 我的代码返回HTTP错误403：禁止

python

Python 我的代码返回HTTP错误403：禁止,python,beautifulsoup,request,screen-scraping,urllib,Python,Beautifulsoup,Request,Screen Scraping,Urllib,我正试图访问一个页面开始抓取它，但它回答说HTTP被禁止，我查找了其他结果，但它们与我的代码执行方式不匹配，因为您的用户代理，您被阻止了。尝试像这样欺骗您的用户代理： from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup myUrl = "https://mee6.xyz/levels/159962941502783488" uClient = uReq(myUrl) pageHtml

我正试图访问一个页面开始抓取它，但它回答说HTTP被禁止，我查找了其他结果，但它们与我的代码执行方式不匹配，因为您的用户代理，您被阻止了。尝试像这样欺骗您的用户代理：

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

myUrl = "https://mee6.xyz/levels/159962941502783488"

uClient = uReq(myUrl)
pageHtml = uClient.read()
print("pageHtml)

您可以从web浏览器访问url吗？错误403表示您尝试访问的资源（或网页）被禁止。首先，看看你是否可以从一个普通的浏览器中加载网站，检查URL中没有拼写错误或错误。也请看本教程，并考虑使用“URLILB2”，因为它是一个非常简单和有用的图书馆。URL打开和工作，代码也适用于另一个网站。仅仅使用不协调的url是行不通的。这是在读取所有类型的用户代理吗？如果是这样的话，您如何选择单个版本。这是将其设置为在Windows 10上假装为Chrome。看起来Windows 10上的Chrome是服务器允许的，所以它允许它进入。如果需要，您可以尝试其他常见的用户代理，只需在浏览器中转到要模拟并复制用户代理字符串。

from urllib.request import urlopen as uReq
from urllib.request import Request
from bs4 import BeautifulSoup as soup

myUrl = "https://mee6.xyz/levels/159962941502783488"

req = Request(
    myUrl, 
    data=None, 
    headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
    }
)

uClient = uReq(req)
pageHtml = uClient.read()
print(pageHtml)