Python 如何重新索引从pandas read_html检索到的格式错误的列?

Python 如何重新索引从pandas read_html检索到的格式错误的列?,python,python-3.x,pandas,dataframe,multiprocessing,Python,Python 3.x,Pandas,Dataframe,Multiprocessing,我正在从一个网站上检索一些内容,该网站上有多个具有相同列数的表,其中有熊猫。当我读取一个链接时,实际上有多个具有相同列数的表,pandas会将所有表作为一个表来读取(类似于平面/规范化表)。但是,我对网站链接列表也感兴趣(即,一个平面表格包含多个链接),因此我尝试了以下方法: 在: 尽管如此,我想我没有准确地指定read_html()列,因此我得到了一个格式错误的列表: 输出: 所以我的问题是,为了从上面的嵌套列表中获得一个平面数据帧,我应该移动哪个参数?。我尝试了header=0,index\

我正在从一个网站上检索一些内容,该网站上有多个具有相同列数的表,其中有熊猫。当我读取一个链接时,实际上有多个具有相同列数的表,pandas会将所有表作为一个表来读取(类似于平面/规范化表)。但是,我对网站链接列表也感兴趣(即,一个平面表格包含多个链接),因此我尝试了以下方法:

在:

尽管如此,我想我没有准确地指定
read_html()
列,因此我得到了一个格式错误的列表:

输出:

所以我的问题是,为了从上面的嵌套列表中获得一个平面数据帧,我应该移动哪个参数?。我尝试了
header=0
index\u col=0
match='“columns”
,它们都不起作用,或者当我使用
pd.dataframe()创建熊猫数据框时,我需要进行展开?。我的主要目标是创建一个类似以下列的数据框架:

form, Disponibility, Relation, drawbacks
1 
2
...
n

IIUC您可以这样做:

首先,您希望返回连接的DF,而不是DF列表(因为
read\u html
返回DFs的列表):

然后为所有URL连接它们:

df = pd.concat(pool.map(process, links), ignore_index=True)

谢谢你的帮助。在
--->4df=pd.concat(pool.map(进程,链接)中,忽略\u index=True)
。我得到:
TypeError:无法连接非NDFrame对象
。知道为什么会发生这种情况以及该怎么办吗?@tumbleweed,
pool.map(进程,链接)
返回什么?是DFs列表还是其他什么?哇!。。。它真的起作用了!,熊猫是一个非常强大的工具。@风滚草,它确实是一个非常强大的工具!:-)很高兴我能帮上忙…@风滚草,不,不要这样做,在更难的问题上保留你的声誉分数;-)
form, Disponibility, Relation, drawbacks
1 
2
...
n
def process(url):
    return pd.concat(pd.read_html(url), ignore_index=False) 
df = pd.concat(pool.map(process, links), ignore_index=True)