Python 网页抓取阿迪达斯不返回html文本_Python_Html_Python 3.x_Web Scraping_Python Requests

Python 网页抓取阿迪达斯不返回html文本

python html python-3.x web-scraping

Python 网页抓取阿迪达斯不返回html文本,python,html,python-3.x,web-scraping,python-requests,Python,Html,Python 3.x,Web Scraping,Python Requests,我正在尝试使用以下代码从阿迪达斯网站上刮取鞋子： from bs4 import BeautifulSoup from urllib.request import Request, urlopen req = Request('https://www.adidas.com/us/men-shoes', headers={'User-Agent': 'Mozilla/5.0'}) webpage = urlopen(req).read() soup = BeautifulSoup(webpage

我正在尝试使用以下代码从阿迪达斯网站上刮取鞋子：

from bs4 import BeautifulSoup
from urllib.request import Request, urlopen

req = Request('https://www.adidas.com/us/men-shoes', headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
soup = BeautifulSoup(webpage)
print(webpage)

出于某种原因，它似乎无法检索页面的html，尽管代码似乎适用于其他URL，例如http://www.python.org. 这可能是安全问题吗？如果是这样的话，我如何从网站上刮鞋

我似乎没有收到错误或响应。代码似乎是无限期运行的。

当我使用与请求头中相同的用户代理时，下面的代码适用于我：

from bs4 import BeautifulSoup

hdr = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
html_page = requests.get("https://www.adidas.com/us/men-shoes", headers=hdr, timeout=15)

soup = BeautifulSoup(html_page.content, 'html.parser')
soup

当我使用与请求头中相同的用户代理时，以下代码对我有效：

from bs4 import BeautifulSoup

hdr = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
html_page = requests.get("https://www.adidas.com/us/men-shoes", headers=hdr, timeout=15)

soup = BeautifulSoup(html_page.content, 'html.parser')
soup

我想你是对的，这很可能是一个安全问题，因为我对那个URL做了一个简单的CURL请求，得到了一条403禁止消息，其中有一些关于安全性的文字。@Sartajsingggill谢谢你的尝试。请考虑在VisualBiTimePube POST投票后，您还可以记录您在运行日志时看到的错误或日志中所看到的内容吗？将有助于排除故障。@Sartajsingggill补充说，thanksIt看起来阿迪达斯网站使用的方法不仅仅是用户代理标题字段来检测浏览器正在连接的内容。使用CURL或wget也会在长时间等待后得到一个“连接被重置”，Python组件似乎永远都在等待。您可能需要使用合适的浏览器，例如使用Python中的selenium之类的工具。我想您是对的，这很可能是一个安全问题，因为我对该URL执行了一个简单的CURL请求，收到了一条403禁止消息，其中包含一些关于安全性的文本。@SartaJSingghill感谢您的尝试。请考虑在VisualBiTimePube POST投票后，您还可以记录您在运行日志时看到的错误或日志中所看到的内容吗？将有助于排除故障。@Sartajsingggill补充说，thanksIt看起来阿迪达斯网站使用的方法不仅仅是用户代理标题字段来检测浏览器正在连接的内容。使用CURL或wget也会在长时间等待后得到一个“连接被重置”，Python组件似乎永远都在等待。您可能需要使用适当的浏览器，例如使用Python中的selenium之类的工具。