Python 含硒刮网&;read_html-获取表格内容的更好方法?如何使用列表数据帧的输出?

Python 含硒刮网&;read_html-获取表格内容的更好方法?如何使用列表数据帧的输出?,python,pandas,selenium,web-scraping,format,Python,Pandas,Selenium,Web Scraping,Format,我相信这里有一位熊猫大师可以向我展示一种更好的方法。目前,我不能简单地用read_html()刮取数据,因此我需要导航页面并通过单击各个按钮打开那里的表,以便在发生这种情况时获得生成的数据 代码段 elem = sesh.find_element_by_xpath(f'{gen_button}') elem.click() #click highlight link #get the elements from the general table gen_table = sesh.find_el

我相信这里有一位熊猫大师可以向我展示一种更好的方法。目前,我不能简单地用read_html()刮取数据,因此我需要导航页面并通过单击各个按钮打开那里的表,以便在发生这种情况时获得生成的数据

代码段

elem = sesh.find_element_by_xpath(f'{gen_button}')
elem.click() #click highlight link
#get the elements from the general table
gen_table = sesh.find_element_by_xpath(body1) # go to the appropriate table
general = pd.read_html(str(gen_table.get_attribute('innerHTML')))
print(general)
产出

[锻造FC分钟播放触摸0
亚历山大·阿奇尼奥蒂·约翰松77 47 1
伯特兰·奥文迪77 69 2克里斯托弗 南科56 42 3多米尼克·塞缪尔
90 59 4埃利曼西塞90 75 5 埃莫里·威尔斯曼90516朱利亚诺 弗朗诺90 108 7乔纳森·格兰特
13 10 8卡德尔·托马斯34 32 9 Kwame Awuah 90 108 10 Kyle Bekker
90 63 11 Marcel Zajac 13 10 12特里斯坦博尔赫斯90 78 13
特里斯顿·亨利90 38]

你可以看到桌上有听众。后跟索引号和后续行

我很高兴它以一种我知道可以使用的方式生成数据。但令我惊讶的是,数据没有使用任何类型的分隔符,因此我最终得到了一些目前无法使用的东西

期待你能提供什么


干杯,所以我应该意识到这一点。read_html创建数据帧,因此我只需确保分别加载每个数据帧

db = general[0]
a = []
for i in range(db.shape[0]):
    row = db.loc[i].values
    a.append(row)
cpl = pd.DataFrame(a,columns=['name','minutes','touches'])

我只是觉得必须有一个更简单的解决方案。

所以我应该意识到这一点。read_html创建数据帧,因此我只需确保分别加载每个数据帧

db = general[0]
a = []
for i in range(db.shape[0]):
    row = db.loc[i].values
    a.append(row)
cpl = pd.DataFrame(a,columns=['name','minutes','touches'])
我只是觉得必须有一个更简单的解决办法