Python 或表中的表:行=表。行中的行查找所有('tr'):所有行。所有行中的数据追加(行):cols=所有行。查找所有('td')cols=[item.text.strip()for item in cols]output=cols output([item fo
Python 或表中的表:行=表。行中的行查找所有('tr'):所有行。所有行中的数据追加(行):cols=所有行。查找所有('td')cols=[item.text.strip()for item in cols]output=cols output([item fo,python,html,pandas,web-scraping,beautifulsoup,Python,Html,Pandas,Web Scraping,Beautifulsoup,或表中的表:行=表。行中的行查找所有('tr'):所有行。所有行中的数据追加(行):cols=所有行。查找所有('td')cols=[item.text.strip()for item in cols]output=cols output([item for item in cols if item])df=pd.DataFrame(output,colns=['Teams'、'bits'、'1'、'2'、'T'、'ATS'])df=df.iloc[1:]print(df)运行此命令将生成此co
或表中的表:行=表。行中的行查找所有('tr'):所有行。所有行中的数据追加(行):cols=所有行。查找所有('td')cols=[item.text.strip()for item in cols]output=cols output([item for item in cols if item])df=pd.DataFrame(output,colns=['Teams'、'bits'、'1'、'2'、'T'、'ATS'])df=df.iloc[1:]print(df)运行此命令将生成此cols=all_行。find_all('td'))AttributeError:“list”对象没有“find_all”属性好吧,通过这些更改,您几乎可以实现所有要求。Variable
all_rows
是废弃页面表格中所有行的列表;Variabletables
是此页面中所有表格的列表-下一步如何处理取决于您。我尝试将其包含在代码中,但我不确定如何正确执行,所以我要做的是扫描页面上的每个表并找到所有行,然后从这些行中获取所有表数据,并将它们合并到一个大表中以供输出。我尝试将其包括在代码中,但我不确定如何正确执行,所以我要做的是扫描页面上的每个表并进行一次扫描nd所有行,然后从这些行中获取所有表数据,并将它们合并到一个大表中以供输出。
import bs4 as bs
import urllib.request
import pandas as pd
source = urllib.request.urlopen('https://www.URLHERE.com').read()
soup = bs.BeautifulSoup(source, 'lxml')
tables = soup.select('table')[-1]
rows = tables.find_all('tr')
output = []
for rows in rows:
cols = rows.find_all('td')
cols = [item.text.strip() for item in cols]
output.append([item for item in cols if item])
df = pd.DataFrame(output, columns = ['1','2', '3', '4', '5', '6'])
df = df.iloc[1:]
print(df)
AttributeError: 'list' object has no attribute 'find_all'
tables = soup.find_all('table')
for table in tables:
# individual table logic here
rows = table.find_all('tr')
for row in rows:
# individual row logic here
tables = pd.read_html("<URL_HERE>")