Python 如何以特殊格式解析Excel列?

Python 如何以特殊格式解析Excel列?,python,pandas,Python,Pandas,我需要使用熊猫从Excel文件中获取信息。比如我们有这个 Time Value1 Value2 0 10 30.5 21.6 1 11 11 50.2 2 13 13 13.33 3 15 101.1 2 4 23 5 5 5 4 11.1 10 我需要使DataFrame包含除过滤列以外的所有列。我需要得到每两行的总和,并将其放入数据帧中。最

我需要使用熊猫从Excel文件中获取信息。比如我们有这个

    Time  Value1  Value2
0    10     30.5    21.6
1    11      11     50.2
2    13      13     13.33
3    15     101.1    2
4    23       5      5
5    4      11.1     10
我需要使DataFrame包含除过滤列以外的所有列。我需要得到每两行的总和,并将其放入数据帧中。最后,

    Time  Value1  Value2
0    21     41.5    71.8
1    28     114.1   15.33
2    27     16.1     15

尝试先读取所有文件,然后对其进行更改-不是解决方案。我需要制作一个带有过滤列的数据帧。谢谢:

根据您的评论,要将四张不同大小的表格读入一个df,您首先必须

  • 确保所有图纸的列数和列名大致相同。如果名称不匹配,则将创建新列,使df以指数形式增大,但在许多单元格中使用
    nan
    s

  • 一次加载并处理一张工作表,以便在读取下一张工作表之前处理内存中加载的原始数据

您不应该耗尽内存,因为读取8k*600工作表大约需要40MB,但如果遇到更大的数据集:

  • 如果内存仍然不足,请尝试强制转换为
    np.float32
    ,可能会牺牲一些和很多内存,但会得到一半的内存使用率

  • 或者,您可以处理一张工作表并将其保存到二进制文件中,例如,在继续下一张工作表之前。最终,如果您需要在完整的数据集上进行计算(而且数据集对于内存来说太大),您可能需要研究核心外的算法,但这是另一回事

如果这一切都在记忆中,那么你就可以阅读

df = [] # list of dfs
for sht in list_with_sheetnames:
    buffer = pd.read_excel(pth+filename, sheet_name=sht)
    df.append(buffer.groupby(buffer.index // 2).sum())
    del buffer
df = pd.concat(df, ignore_index=True) # convert from list of dfs to single df

您可以制作一个每两行增加一次的石斑鱼,然后对这些行求和

从excel读取数据后:

df = df.groupby(df.index // 2).sum()

为什么不阅读然后修改呢?我已经说过了。)这不是一个解决方案。好的,你能解释一下什么是不方便的,这样我们就可以找到解决方案了吗?哦,对不起。问题是,我需要读取一个大文件(4张Excel表格,每个表格中有8k行和600列),并对每两行进行求和,然后确定如何将其全部保存在DataFrame中