Python Web抓取动态内容

Python Web抓取动态内容,python,web-scraping,python-requests,python-requests-html,Python,Web Scraping,Python Requests,Python Requests Html,我一直在尝试从kith.com搜索结果中获取基本的示例代码。尝试使用scrapy、请求html和selenium,但我还没能让它们正常工作 现在我的代码是: from requests_html import HTMLSession session = HTMLSession() r = session.get("https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created") r

我一直在尝试从kith.com搜索结果中获取基本的示例代码。尝试使用scrapy、请求html和selenium,但我还没能让它们正常工作

现在我的代码是:

from requests_html import HTMLSession

session = HTMLSession()
r = session.get("https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created")

r.html.render()
print(r)
据我所见,render()应该获得与浏览器中相同的html代码,但我仍然获得相同的“原始”代码

PD:kith.com是一家shopify商店

适合这样的工作

from selenium import webdriver
from selenium.webdriver.firefox.options import Options

options = Options()
options.headless = True
driver = webdriver.Firefox(options=options)
driver.get('https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created')


item_titles = driver.find_elements_by_class_name("snize-title")

print item_titles[0].text
#NIKE WMNS SHOX TL - NOVA WHITE / TEAM ORANGE / SPRUCE AURA

编辑:

如果要捕获所有项目信息,则要捕获带有
snize overhidden
类的
div
元素。然后您可以遍历它们,它们的子元素适合这样的工作

from selenium import webdriver
from selenium.webdriver.firefox.options import Options

options = Options()
options.headless = True
driver = webdriver.Firefox(options=options)
driver.get('https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created')


item_titles = driver.find_elements_by_class_name("snize-title")

print item_titles[0].text
#NIKE WMNS SHOX TL - NOVA WHITE / TEAM ORANGE / SPRUCE AURA

编辑:


如果要捕获所有项目信息,则要捕获带有
snize overhidden
类的
div
元素。然后,您可以遍历它们及其子元素

在不打开任何浏览器的情况下,我如何执行此操作?我的目的是在项目完成后将其上传到AWS,这样它可以每隔两小时运行一次浏览器可以在无头模式下运行(它在后台运行)。检查更新的答案@nytroscopied您的代码,我收到一个错误,说明“选项”未定义。如果计算机不打开任何浏览器,我将如何执行此操作?我的目的是在项目完成后将其上传到AWS,这样它可以每隔两小时运行一次浏览器可以在无头模式下运行(它在后台运行)。检查更新的答案@nytroscopied您的代码,我收到一个错误,指出“选项”未定义,,这是否回答了您的问题,这回答了你的问题吗?