Python 使用有限的类元素美化组和刮削页面

Python 使用有限的类元素美化组和刮削页面,python,beautifulsoup,Python,Beautifulsoup,我正在尝试刮取位于此处的此页面: 我需要的信息只是团队名称和应用于每个团队的评级。但是,由于页面具有非常基本的HTML标记,因此我很难理解如何提取这些数据。整个表(如果您真的可以这样称呼它)似乎位于一组黑色(#000000)的font标记中 似乎我需要的每个团队名称都包含在标记中,标记的颜色为000000,而每个评级都包含在另一个标记中,标记的颜色为9900ff。在我需要的每个相关的两个标记之间似乎还有4个无用的标记。有没有关于如何提取这两个特定字体标记的想法?所以我已经对它进行了一些研究,并提

我正在尝试刮取位于此处的此页面:

我需要的信息只是团队名称和应用于每个团队的评级。但是,由于页面具有非常基本的HTML标记,因此我很难理解如何提取这些数据。整个表(如果您真的可以这样称呼它)似乎位于一组黑色(#000000)的
font
标记中


似乎我需要的每个团队名称都包含在
标记中,标记的颜色为000000,而每个评级都包含在另一个
标记中,标记的颜色为9900ff。在我需要的每个相关的两个标记之间似乎还有4个无用的
标记。有没有关于如何提取这两个特定字体标记的想法?

所以我已经对它进行了一些研究,并提供了一些基本代码:

source = urllib.request.urlopen('https://www.usatoday.com/sports/ncaaf/sagarin/').read()
soup = bs.BeautifulSoup(source, "lxml")
page_source = soup.find("font", {"color": "#000000"})

temp_list = page_source.find_all("font", {"color": "#000000"})
for teams in temp_list[2:-3:2]:
    print(teams.text)

这给了我一份球队名单,但我仍然需要从中剔除一些垃圾。至少对于设计糟糕的网页来说,这是一个开始。

最方便的库应该是lxml。您是否安装了它?或beautifulsoup(bs4)