使用beautifulsoup在Python中抓取足球网问题_Python_Web Scraping

使用beautifulsoup在Python中抓取足球网问题

python web-scraping

使用beautifulsoup在Python中抓取足球网问题,python,web-scraping,Python,Web Scraping,我已经设法从goal.com上删除了俱乐部的名字，但现在我需要利用这些数据。我不知道如何从这些数据中选择一个特定的俱乐部并使用它，这样我就可以为下一场与特定球队的比赛倒计时密码我喜欢使用xpath，它非常强大。输入：输出： 200 ['2019-03-31T18:45:00+00:00', '2019-04-03T19:30:00+00:00', '2019-04-06T14:15:00+00:00', '2019-04-15T19:00:00+00:00'] ['Real Madrid

我已经设法从goal.com上删除了俱乐部的名字，但现在我需要利用这些数据。我不知道如何从这些数据中选择一个特定的俱乐部并使用它，这样我就可以为下一场与特定球队的比赛倒计时

密码

我喜欢使用xpath，它非常强大。输入：

输出：

200
['2019-03-31T18:45:00+00:00', '2019-04-03T19:30:00+00:00', '2019-04-06T14:15:00+00:00', '2019-04-15T19:00:00+00:00']
['Real Madrid', 'Huesca', 'Valencia', 'Real Madrid', 'Real Madrid', 'Eibar', u'Legan\xe9s', 'Real Madrid']

以下是忽略过去比赛的未来日期和球队，包括tbc。它通过查看日期时间来确定未来的匹配，因为我假设这些匹配只需要倒计时

from datetime import datetime
from bs4 import BeautifulSoup as bs
import requests
from dateutil import parser
import pytz

utc=pytz.UTC

r = requests.get('https://www.goal.com/en-in/team/real-madrid/fixtures-results/3kq9cckrnlogidldtdie2fkbl')
soup = bs(r.content, 'lxml')
items = soup.select('.match-main-data')
times = [item.find('time')['datetime'] if item.find('time') is not None else 'TBC' for item in items]
matches = [item['content'] for item in soup.select('[itemprop="name"][content]')]
results = list(zip(matches, times))
currentUTC = datetime.utcnow()
data = []

for result in results:
    if result[1] == 'TBC':
        data.append(result)
    else:
        dt = parser.parse(result[1])
        if dt > utc.localize(currentUTC):
            data.append(result)

print(data)

你能帮我把这个时间转换成印度标准时间吗？我可以在以后靠近电脑的时候看一看。你能帮我把这个时间转换成印度标准时间吗？所有时区

200
['2019-03-31T18:45:00+00:00', '2019-04-03T19:30:00+00:00', '2019-04-06T14:15:00+00:00', '2019-04-15T19:00:00+00:00']
['Real Madrid', 'Huesca', 'Valencia', 'Real Madrid', 'Real Madrid', 'Eibar', u'Legan\xe9s', 'Real Madrid']

from datetime import datetime
from bs4 import BeautifulSoup as bs
import requests
from dateutil import parser
import pytz

utc=pytz.UTC

r = requests.get('https://www.goal.com/en-in/team/real-madrid/fixtures-results/3kq9cckrnlogidldtdie2fkbl')
soup = bs(r.content, 'lxml')
items = soup.select('.match-main-data')
times = [item.find('time')['datetime'] if item.find('time') is not None else 'TBC' for item in items]
matches = [item['content'] for item in soup.select('[itemprop="name"][content]')]
results = list(zip(matches, times))
currentUTC = datetime.utcnow()
data = []

for result in results:
    if result[1] == 'TBC':
        data.append(result)
    else:
        dt = parser.parse(result[1])
        if dt > utc.localize(currentUTC):
            data.append(result)

print(data)