Python 是否可以使用pandas在多个网页上刮取html表?

Python 是否可以使用pandas在多个网页上刮取html表?,python,pandas,beautifulsoup,Python,Pandas,Beautifulsoup,我正在寻找方法来清除某个网站上的所有表格。所有子页面中的表格格式完全相同。问题是,这些子页面的URL是这样的: url1='http…/Tom', url2='http…/Mary', url3='http…/Jason',因此我无法通过增量更改url来设置循环。pandas有什么可能的方法来解决这个问题吗?另一个想法是首先使用BeautifulSoup库,从网页中获取所有表格元素,然后应用pd.read_html()我假设每个页面中的数据实际上都被格式化为html表格元素,可以由熊猫加工。(当

我正在寻找方法来清除某个网站上的所有表格。所有子页面中的表格格式完全相同。问题是,这些子页面的URL是这样的:
url1='http…/Tom',
url2='http…/Mary',

url3='http…/Jason',因此我无法通过增量更改url来设置循环。pandas有什么可能的方法来解决这个问题吗?

另一个想法是首先使用
BeautifulSoup
库,从网页中获取所有
表格
元素,然后应用
pd.read_html()

我假设每个页面中的数据实际上都被格式化为html
表格
元素,可以由熊猫加工。(当然,许多看起来像表格的页面显示不是HTML
table
元素;最好检查一下。)

然后处理一个表的代码可能如下所示:

df = pd.read_html(url, header=0)[0]
或者这个:

df = pd.read_html(url)[0]
我假设每个页面上只有一个感兴趣的表。事实上,您可能还发现,
read\u html
的其他参数可能需要改变

那么完整的代码应该是这样的:

stub_url = 'http:// ...'
dfs = []
for ending in ['Tom', 'Mary', 'Jason']:
    one_df = pd.read_html(stub_url + ending, header=0)[0]
    dfs[ending] = one_df

你提前知道网址是什么吗?您从哪里获得URL?如何在抓取中使用
pandas
?您可以尝试使用pd.read_html()方法,但如果没有页面示例,则很难提出任何具体建议。那么你能提供一个例子吗?一个例子url在这里:实际上,我想从这里收集所有马的比赛历史:谢谢。不幸的是,我遵循了您的代码,但它返回为:列表索引必须是整数或片,而不是str。对不起,现在请尝试一下。