Python 含硒刮网&;read_html-获取表格内容的更好方法?如何使用列表数据帧的输出?
我相信这里有一位熊猫大师可以向我展示一种更好的方法。目前,我不能简单地用read_html()刮取数据,因此我需要导航页面并通过单击各个按钮打开那里的表,以便在发生这种情况时获得生成的数据 代码段Python 含硒刮网&;read_html-获取表格内容的更好方法?如何使用列表数据帧的输出?,python,pandas,selenium,web-scraping,format,Python,Pandas,Selenium,Web Scraping,Format,我相信这里有一位熊猫大师可以向我展示一种更好的方法。目前,我不能简单地用read_html()刮取数据,因此我需要导航页面并通过单击各个按钮打开那里的表,以便在发生这种情况时获得生成的数据 代码段 elem = sesh.find_element_by_xpath(f'{gen_button}') elem.click() #click highlight link #get the elements from the general table gen_table = sesh.find_el
elem = sesh.find_element_by_xpath(f'{gen_button}')
elem.click() #click highlight link
#get the elements from the general table
gen_table = sesh.find_element_by_xpath(body1) # go to the appropriate table
general = pd.read_html(str(gen_table.get_attribute('innerHTML')))
print(general)
产出
[锻造FC分钟播放触摸0亚历山大·阿奇尼奥蒂·约翰松77 47 1
伯特兰·奥文迪77 69 2克里斯托弗 南科56 42 3多米尼克·塞缪尔
90 59 4埃利曼西塞90 75 5 埃莫里·威尔斯曼90516朱利亚诺 弗朗诺90 108 7乔纳森·格兰特
13 10 8卡德尔·托马斯34 32 9 Kwame Awuah 90 108 10 Kyle Bekker
90 63 11 Marcel Zajac 13 10 12特里斯坦博尔赫斯90 78 13
特里斯顿·亨利90 38] 你可以看到桌上有听众。后跟索引号和后续行 我很高兴它以一种我知道可以使用的方式生成数据。但令我惊讶的是,数据没有使用任何类型的分隔符,因此我最终得到了一些目前无法使用的东西 期待你能提供什么
干杯,所以我应该意识到这一点。read_html创建数据帧,因此我只需确保分别加载每个数据帧
db = general[0]
a = []
for i in range(db.shape[0]):
row = db.loc[i].values
a.append(row)
cpl = pd.DataFrame(a,columns=['name','minutes','touches'])
我只是觉得必须有一个更简单的解决方案。所以我应该意识到这一点。read_html创建数据帧,因此我只需确保分别加载每个数据帧
db = general[0]
a = []
for i in range(db.shape[0]):
row = db.loc[i].values
a.append(row)
cpl = pd.DataFrame(a,columns=['name','minutes','touches'])
我只是觉得必须有一个更简单的解决办法