Python requests.get仅在我不';不要指定页码

Python requests.get仅在我不';不要指定页码,python,html,beautifulsoup,Python,Html,Beautifulsoup,我正在使用python使用请求和BeautifulSoup抓取web数据。我发现,我正在抓取的两个网站只有在我没有指定页码的情况下才会回复 以下代码起作用,允许我提取所需的数据: headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'} r = requests.get

我正在使用python使用请求和BeautifulSoup抓取web数据。我发现,我正在抓取的两个网站只有在我没有指定页码的情况下才会回复

以下代码起作用,允许我提取所需的数据:

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'}

r = requests.get('https://www.milkround.com/jobs/graduate-software-engineer', headers = headers)
soup = BeautifulSoup(r.content, 'html5lib')
table = soup.find('div', attrs = {'class':'col-xs-12 job-results clearfix'})
但是,如果我更改链接以指定页码,例如:

r = requests.get('https://www.milkround.com/jobs/graduate-software-engineer?page=2', headers = headers)
然后请求永远不会响应。没有错误代码,控制台只是无限期地等待。这是什么原因造成的?如何解决


编辑:我以匿名方式手动打开了该网站。似乎当用页码打开时,我会收到“拒绝访问”的响应,但如果我刷新页面,它会允许我进入?

请提供页眉信息。

这是因为如果您看到,您无法从外部访问网站上的页码。因此,如果您已登录并拥有某种cookie,则将其添加到您的标题中


我刚才在网站上查到的是你们试图访问错误的URI。并没有页码。您是否添加了自己的?页面=

您正在解决的问题是关于网页刮取。在您的情况下,由于您的标题声明缺少正确的用户代理定义,您的网页会被阻塞

要使其正常工作,您需要包括如下所示的用户代理声明:

headers={'user-agent':'Mozilla/5.0(Linux;U;Android 0.5;en-us)AppleWebKit/522+(KHTML,比如Gecko)Safari/419.3',}
在这里,您可以更深入地探讨编写优秀web scraper的问题:

可在此处找到适当的用户代理列表:


希望您能解决您的问题。

请提供您建立的
标题变量。请参阅更多标题。在第二个页面上单击有页码作为第一个建议,由于某些cookie值,您可能能够访问这些页面,因此您也可以将它们添加到标题中。在我这边,它没有打开,所以我无法挖掘头部