Python抓取:如何在一个单元格中分离多个属性(td)?
在抓取HTML表格时,如果表格中的单元格(td)具有多个属性(例如,请参见HTML代码段),如何将两者分开和/或如何仅选择一个 HTML代码段:Python抓取:如何在一个单元格中分离多个属性(td)?,python,web-scraping,beautifulsoup,python-requests,Python,Web Scraping,Beautifulsoup,Python Requests,在抓取HTML表格时,如果表格中的单元格(td)具有多个属性(例如,请参见HTML代码段),如何将两者分开和/或如何仅选择一个 HTML代码段: <td class="playerName md align-left pre in post" style="display: table-cell;"><span ...</span> <a role="button" class="full-name">Dustin Johnson</a> &
<td class="playerName md align-left pre in post" style="display: table-cell;"><span ...</span>
<a role="button" class="full-name">Dustin Johnson</a>
<a role="button" class="short-name">D. Johnson</a></td>
对于如何a)仅选择其中一个名称,或b)将单元格分成两个单元格,如有任何建议,将不胜感激
谢谢。尝试使用正则表达式匹配tr
players = the_soup.findAll('tr',{'class':re.compile("player-overview")})
for p in players:
name = p.find('a',{'class':'full-name'}).get_text()
尝试使用正则表达式来匹配tr
players = the_soup.findAll('tr',{'class':re.compile("player-overview")})
for p in players:
name = p.find('a',{'class':'full-name'}).get_text()
如果您想要全名和简称,可以尝试以下方法:
for td in row.find_all('td'):
full_name = td.find('a', {'class': 'full-name'}).text
short_name = td.find('a', {'class': 'short-name'}).text
如果您想要全名和简称,可以尝试以下方法:
for td in row.find_all('td'):
full_name = td.find('a', {'class': 'full-name'}).text
short_name = td.find('a', {'class': 'short-name'}).text
你期望得到什么样的结果?我正试图从网站上删除表格。但是我需要两个名字的风格在不同的列中,这样我就可以根据球员的名字来查找分数。你希望得到什么样的输出?我正在尝试从网站上刮表。但我需要两个名字的风格在单独的列中,这样我就可以根据球员的名字查找分数。