ESPN.com Python网页抓取问题_Python_Selenium_Web Scraping_Beautifulsoup

ESPN.com Python网页抓取问题

python selenium web-scraping

ESPN.com Python网页抓取问题,python,selenium,web-scraping,beautifulsoup,Python,Selenium,Web Scraping,Beautifulsoup,我试图为所有大学足球队的名单收集数据，因为我想根据他们的名单组成对球队表现进行一些分析我的脚本在第一个页面上运行，它在每个团队中迭代，可以打开每个团队的“名册”链接，但是我在团队的“名册”页面上运行的漂亮的“汤”命令会不断抛出索引错误。当我查看HTML时，似乎我正在编写的命令应该可以工作，但当我从漂亮的Soup打印页面源代码时，我看不到我在Chrome开发工具中看到的内容。这是JS用来提供内容的实例吗？如果是这样的话，我想Selenium解决了这个问题我的代码 import requests

我试图为所有大学足球队的名单收集数据，因为我想根据他们的名单组成对球队表现进行一些分析

我的脚本在第一个页面上运行，它在每个团队中迭代，可以打开每个团队的“名册”链接，但是我在团队的“名册”页面上运行的漂亮的“汤”命令会不断抛出索引错误。当我查看HTML时，似乎我正在编写的命令应该可以工作，但当我从漂亮的Soup打印页面源代码时，我看不到我在Chrome开发工具中看到的内容。这是JS用来提供内容的实例吗？如果是这样的话，我想Selenium解决了这个问题

我的代码

import requests
import csv
from bs4 import BeautifulSoup
from selenium import webdriver

teams_driver = webdriver.Firefox()
teams_driver.get("http://www.espn.com/college-football/teams")
teams_html = teams_driver.page_source
teams_soup = BeautifulSoup(teams_html, "html5lib")

i = 0

for link_html in teams_soup.find_all('a'):
    if link_html.text == 'Roster':
        roster_link = 'https://www.espn.com' + link_html['href']

        roster_driver = webdriver.Firefox()
        roster_driver.get(roster_link)
        roster_html = teams_driver.page_source
        roster_soup = BeautifulSoup(roster_html, "html5lib")

        team_name_html = roster_soup.find_all('a', class_='sub-brand-title')[0]
        team_name = team_name_html.find_all('b')[0].text

        for player_html in roster_soup.find_all('tr', class_='oddrow'):
            player_name = player_html.find_all('a')[0].text
            player_pos = player_html.find_all('td')[2].text
            player_height = player_html.find_all('td')[3].text
            player_weight = player_html.find_all('td')[4].text
            player_year = player_html.find_all('td')[5].text
            player_hometown = player_html.find_all('td')[6].text

            print(team_name)
            print('\t', player_name)

        roster_driver.close()

teams_driver.close()

在for循环中，您使用的是第1页的html（

floster\u html=teams\u driver.page\u source

），因此当您尝试选择

team\u name\u html

的第1项时，会出现索引错误，因为

find\u all

返回一个空列表

另外，您不需要打开所有的

Firefox

实例，您可以在打开html时关闭驱动程序

teams_driver = webdriver.Firefox()
teams_driver.get("http://www.espn.com/college-football/teams")
teams_html = teams_driver.page_source
teams_driver.quit()

但是您不必为此任务使用

selenium

，您可以通过

请求和bs4
获取所有数据
import requests
from bs4 import BeautifulSoup

r = requests.get("http://www.espn.com/college-football/teams")
teams_soup = BeautifulSoup(r.text, "html5lib")

for link_html in teams_soup.find_all('a'):
    if link_html.text == 'Roster':
        roster_link = 'https://www.espn.com' + link_html['href']
        r = requests.get(roster_link)
        roster_soup = BeautifulSoup(r.text, "html5lib")

        team_name = roster_soup.find('a', class_='sub-brand-title').find('b').text
        for player_html in roster_soup.find_all('tr', class_='oddrow'):
            player_name = player_html.find_all('a')[0].text
            player_pos = player_html.find_all('td')[2].text
            player_height = player_html.find_all('td')[3].text
            player_weight = player_html.find_all('td')[4].text
            player_year = player_html.find_all('td')[5].text
            player_hometown = player_html.find_all('td')[6].text
            print(team_name, player_name, player_pos, player_height, player_weight, player_year, player_hometown)

哇！复制和粘贴注定了我的命运。我已经看了几个晚上了，甚至“重构”了代码，尝试从不同的站点抓取。这根本不是网站。谢谢，任何人都会这样。有时它就在你面前，但你看不见它。