Python 使用BeautifulSoup解析HTML内容&;硒

Python 使用BeautifulSoup解析HTML内容&;硒,python,selenium,beautifulsoup,Python,Selenium,Beautifulsoup,我正在尝试获取每个“td”、“Class”的HREF:“Match center”,我需要使用selenium来浏览页面,但我很难将这两个功能结合起来,这样我就可以更改菜单选项并浏览不同的页面,同时将链接输入到我的其他代码中 我已经研究并尝试了('inner-html')和当前代码中的page.source,但它没有得到我需要的任何web链接 是否有人有办法获得这些链接并在页面上导航。是否有办法获取此页面的XML以获取所有链接?不确定您为什么需要在此处使用BeautifulSoup(BS)。Se

我正在尝试获取每个“td”、“Class”的HREF:“Match center”,我需要使用selenium来浏览页面,但我很难将这两个功能结合起来,这样我就可以更改菜单选项并浏览不同的页面,同时将链接输入到我的其他代码中

我已经研究并尝试了('inner-html')和当前代码中的page.source,但它没有得到我需要的任何web链接


是否有人有办法获得这些链接并在页面上导航。是否有办法获取此页面的XML以获取所有链接?

不确定您为什么需要在此处使用
BeautifulSoup
(BS)。Selenium本身就能够定位元素并通过页面上的链接进行导航。例如,要获取“匹配详细信息”页面的所有链接,可以执行以下操作:

from selenium import webdriver
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup
import csv
import requests
import re

driver2 = webdriver.Chrome()
driver2.get("http://www.squawka.com/match-results?ctl=10_s2015")

soup=BeautifulSoup(driver2.page_source)

print soup

driver2.quit()
对于页面导航,可以使用以下XPath:

>>> matches = driver.find_elements_by_xpath("//td[@class='match-centre']/a")
>>> print [match.get_attribute("href") for match in matches]
上面的XPath找到指向下一页的链接。要浏览所有页面,可以尝试使用
while
循环;找到下一页的链接时:

  • 在链接上执行单击操作
  • 从当前页面抓取所有
    href
  • 找到下一页链接
  • //span[contains(@class,'page-numbers')]/following-sibling::a[1]