Python 使用有限的类元素美化组和刮削页面_Python_Beautifulsoup

Python 使用有限的类元素美化组和刮削页面

python

Python 使用有限的类元素美化组和刮削页面,python,beautifulsoup,Python,Beautifulsoup,我正在尝试刮取位于此处的此页面：我需要的信息只是团队名称和应用于每个团队的评级。但是，由于页面具有非常基本的HTML标记，因此我很难理解如何提取这些数据。整个表（如果您真的可以这样称呼它）似乎位于一组黑色（#000000）的font标记中似乎我需要的每个团队名称都包含在标记中，标记的颜色为000000，而每个评级都包含在另一个标记中，标记的颜色为9900ff。在我需要的每个相关的两个标记之间似乎还有4个无用的标记。有没有关于如何提取这两个特定字体标记的想法？所以我已经对它进行了一些研究，并提

我正在尝试刮取位于此处的此页面：

我需要的信息只是团队名称和应用于每个团队的评级。但是，由于页面具有非常基本的HTML标记，因此我很难理解如何提取这些数据。整个表（如果您真的可以这样称呼它）似乎位于一组黑色（#000000）的

font

标记中

似乎我需要的每个团队名称都包含在

标记中，标记的颜色为000000，而每个评级都包含在另一个

标记中，标记的颜色为9900ff。在我需要的每个相关的两个标记之间似乎还有4个无用的

标记。有没有关于如何提取这两个特定字体标记的想法？

所以我已经对它进行了一些研究，并提供了一些基本代码：

source = urllib.request.urlopen('https://www.usatoday.com/sports/ncaaf/sagarin/').read()
soup = bs.BeautifulSoup(source, "lxml")
page_source = soup.find("font", {"color": "#000000"})

temp_list = page_source.find_all("font", {"color": "#000000"})
for teams in temp_list[2:-3:2]:
    print(teams.text)

这给了我一份球队名单，但我仍然需要从中剔除一些垃圾。至少对于设计糟糕的网页来说，这是一个开始。

最方便的库应该是lxml。您是否安装了它？或beautifulsoup（bs4）