Python 有没有不同的方法可以用熊猫来刮这个?
所以我试着把桌子刮下来,我试着从上面弄到一张特别的桌子。我真的只知道如何使用pandas read_html函数刮表,所以我一直在这么做。当我使用长度函数时,熊猫告诉我只有5张桌子,而实际上只有14张。这是我想从中获取数据的图像,但熊猫认为这不存在。我使用的代码如下:Python 有没有不同的方法可以用熊猫来刮这个?,python,pandas,Python,Pandas,所以我试着把桌子刮下来,我试着从上面弄到一张特别的桌子。我真的只知道如何使用pandas read_html函数刮表,所以我一直在这么做。当我使用长度函数时,熊猫告诉我只有5张桌子,而实际上只有14张。这是我想从中获取数据的图像,但熊猫认为这不存在。我使用的代码如下: import pandas as pd url = "https://www.basketball-reference.com/teams/BOS/1980.html" tables= pd.read_h
import pandas as pd
url = "https://www.basketball-reference.com/teams/BOS/1980.html"
tables= pd.read_html(url)
所以当我运行它时,我查看了所有的表,只得到了5个表。有人能帮忙吗?- 关闭浏览器上的javascript,重新加载页面
- 不显示表格。查看源代码,您将看到表被注释掉了
- 可以使用BeautifulSoup
- 将此HTML推入
pd.read\u HTML()
关闭浏览器上的javascript,然后重新加载页面。您将看到该表不存在。它是使用javascript动态构建的,这意味着它必须在浏览器中构建,所以您需要使用类似selenium的东西来刮除它
import requests
from bs4 import BeautifulSoup
from bs4 import Comment
import pandas as pd
res = requests.get("https://www.basketball-reference.com/teams/BOS/1980.html")
id="div_team_and_opponent"
html = BeautifulSoup(res.content, 'html.parser')
pd.read_html(html.find_all(string=lambda text: isinstance(text, Comment) and id in text)[0])[0]