Python 单击导航栏可以工作。但是HTML href指向了其他东西

Python 单击导航栏可以工作。但是HTML href指向了其他东西,python,html,web-scraping,Python,Html,Web Scraping,我正在尝试收集一些有关中的市场分析报告的元数据。他们拥有先进材料、生物技术等不同领域的数据 如果你在一个主题下,比如说,报告分布在底部的许多导航页面上 当我点击导航页面,比如2号页面时,页面会向上滚动刷新。这自然会将更多结果加载到屏幕上。现在的问题是,当我使用href检查导航页面的链接时,它会将我带回主题的主页,而不是第二页 我想知道是否有人能帮我 编辑:点击导航页面链接前后导航页面源的屏幕截图。 页面正在使用POST请求更新页面内容,而不是导航离开 要向其发送请求的链接的格式为: 其中有页码(

我正在尝试收集一些有关中的市场分析报告的元数据。他们拥有先进材料、生物技术等不同领域的数据

如果你在一个主题下,比如说,报告分布在底部的许多导航页面上

当我点击导航页面,比如2号页面时,页面会向上滚动刷新。这自然会将更多结果加载到屏幕上。现在的问题是,当我使用href检查导航页面的链接时,它会将我带回主题的主页,而不是第二页

我想知道是否有人能帮我

编辑:点击导航页面链接前后导航页面源的屏幕截图。

页面正在使用POST请求更新页面内容,而不是导航离开

要向其发送请求的链接的格式为:

其中有页码(如3)和每个页码的结果(如25)

这些不是您可以在浏览器中访问的URL

当您单击导航图标时,会对其类已激活的导航图标发出POST请求

如果您使用像selenium这样的方法,您可以自动单击这些链接,从而生成POST请求,并且您可以从更新的页面中删除内容

使用selenium,您可以将结果计数设置为每页100。通过除以总结果计数/结果计数页并四舍五入计算页数。然后单击“下一个V形”在所有页面中移动

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
import math
import time

url = 'https://www.bccresearch.com/market-research/advanced-materials'
driver = webdriver.Chrome()
driver.get(url)
WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CSS_SELECTOR, "a")))
#switch to 100 results per page
driver.find_element_by_css_selector('.itperpg:last-child').click()

#calculate number of pages
results_count = int(re.search('(\d+)',driver.find_element_by_css_selector('#publishedrpt h1').text).group())
results_per_page = 100
num_pages = math.ceil(results_count / results_per_page)
print(num_pages)

#click next button through all pages

for page in range(num_pages):
    WebDriverWait(driver, 5).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "[aria-label=Next]"))).click()
    time.sleep(3) #replace this with better condition based wait

    #do something with page

当我点击另一个页面时,我的URL不会改变。您如何知道这是一个有效的URL?这是从哪里来的?@LoganPhillips我在帖子中添加了前后的图片。请参考它们并感谢您的帮助。请在问题中包含您的代码。这就解决了问题。感谢您的详细回复!作为后续行动,我想知道在Requests的帮助下是否也可以这样做。我明天再看一看。您是否尝试使用开发工具来检查POST XHR?