Python 巨蟒靓汤只刮到了页面的下半部分_Python_Web Scraping_Beautifulsoup

Python 巨蟒靓汤只刮到了页面的下半部分

python web-scraping

Python 巨蟒靓汤只刮到了页面的下半部分,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我试图从一个相当大的服装网站页面中提取产品信息，但soup似乎只是以任意截断的方式刮取html文档的下半部分，因此我感兴趣的数据实际上并不在我的soup中。我在另一个网站上试用过，效果很好，所以我认为它是针对特定网站的这是我的密码： from bs4 import BeautifulSoup import requests r = requests.get("https://www.pullandbear.com/rs/man/sale-c1030036006.html") soup = B

我试图从一个相当大的服装网站页面中提取产品信息，但soup似乎只是以任意截断的方式刮取html文档的下半部分，因此我感兴趣的数据实际上并不在我的soup中。我在另一个网站上试用过，效果很好，所以我认为它是针对特定网站的

这是我的密码：

from bs4 import BeautifulSoup
import requests

r = requests.get("https://www.pullandbear.com/rs/man/sale-c1030036006.html")
soup = BeautifulSoup(r.content, "html.parser")
print(soup.prettify())

如其中一条注释所述，您试图获取的HTML是通过浏览器上运行的JavaScript添加的

我向你推荐这个由《非常流行》作者创建的软件包

看起来您想要的内容可能是由javascript呈现的，而afaik不会在BS4中显示。请使用任何浏览器模拟器获取动态内容。@新手程序员尝试过。没用。@aws_学徒，这仍然不能解释为什么我的汤没有完整的前半页。例如，它不包含开始html和正文标记，但在文档末尾包含结束标记。内容加载到js事件中，因此bs4找不到元素。尝试使用selenium获取整个网页，保存html并使用bs4完成您的工作。。。

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://www.pullandbear.com/rs/man/sale-c1030036006.html')
r.html.render()

print(r.html.html)