Python 是否可以使用pandas在多个网页上刮取html表？_Python_Pandas_Beautifulsoup

Python 是否可以使用pandas在多个网页上刮取html表？

python pandas

Python 是否可以使用pandas在多个网页上刮取html表？,python,pandas,beautifulsoup,Python,Pandas,Beautifulsoup,我正在寻找方法来清除某个网站上的所有表格。所有子页面中的表格格式完全相同。问题是，这些子页面的URL是这样的： url1='http…/Tom'， url2='http…/Mary'， url3='http…/Jason'，因此我无法通过增量更改url来设置循环。pandas有什么可能的方法来解决这个问题吗？另一个想法是首先使用BeautifulSoup库，从网页中获取所有表格元素，然后应用pd.read_html（）我假设每个页面中的数据实际上都被格式化为html表格元素，可以由熊猫加工。（当

我正在寻找方法来清除某个网站上的所有表格。所有子页面中的表格格式完全相同。问题是，这些子页面的URL是这样的：
url1='http…/Tom'，
url2='http…/Mary'，

url3='http…/Jason'，因此我无法通过增量更改url来设置循环。pandas有什么可能的方法来解决这个问题吗？

另一个想法是首先使用

BeautifulSoup

库，从网页中获取所有

表格

元素，然后应用

pd.read_html（）

我假设每个页面中的数据实际上都被格式化为html

表格

元素，可以由熊猫加工。（当然，许多看起来像表格的页面显示不是HTML

table

元素；最好检查一下。）

然后处理一个表的代码可能如下所示：

df = pd.read_html(url, header=0)[0]

或者这个：

df = pd.read_html(url)[0]

我假设每个页面上只有一个感兴趣的表。事实上，您可能还发现，

read\u html

的其他参数可能需要改变

那么完整的代码应该是这样的：

stub_url = 'http:// ...'
dfs = []
for ending in ['Tom', 'Mary', 'Jason']:
    one_df = pd.read_html(stub_url + ending, header=0)[0]
    dfs[ending] = one_df

你提前知道网址是什么吗？您从哪里获得URL？如何在抓取中使用

pandas

？您可以尝试使用pd.read_html（）方法，但如果没有页面示例，则很难提出任何具体建议。那么你能提供一个例子吗？一个例子url在这里：实际上，我想从这里收集所有马的比赛历史：谢谢。不幸的是，我遵循了您的代码，但它返回为：列表索引必须是整数或片，而不是str。对不起，现在请尝试一下。