Pandas 当列包含重复的标题时重新格式化表

Pandas 当列包含重复的标题时重新格式化表,pandas,dataframe,reformatting,Pandas,Dataframe,Reformatting,我有下面的pandas数据框,我想对它进行排序,以便[“文件名”、“文件开始时间”等]是列标题。我可以想象在各行中运行一个循环来查找字符串,但也许有一个更简单的选择 import pandas as pd data = pd.read_csv(file_path + 'chb01-summary.txt',skiprows = 28, header=None, delimiter = ": ") 文件源 您可以通过以下方式使用和重塑: 有什么问题吗?你能解释一下吗? url = 'https

我有下面的pandas数据框,我想对它进行排序,以便[“文件名”、“文件开始时间”等]是列标题。我可以想象在各行中运行一个循环来查找字符串,但也许有一个更简单的选择

import pandas as pd

data = pd.read_csv(file_path + 'chb01-summary.txt',skiprows = 28, header=None, delimiter = ": ")
文件源

您可以通过以下方式使用和重塑:


有什么问题吗?你能解释一下吗?
url = 'https://www.physionet.org/pn6/chbmit/chb01/chb01-summary.txt'
df = pd.read_csv(url, skiprows=28, sep=':\s+', names=['a','b'], engine='python')
print (df.head())
                           a             b
0                   File Name  chb01_01.edf
1             File Start Time      11:42:54
2               File End Time      12:42:54
3  Number of Seizures in File             0
4                   File Name  chb01_02.edf

df = df.set_index([df['a'].eq('File Name').cumsum(), 'a'])['b']
       .unstack()
       .reset_index(drop=True)
print (df.head())
a File End Time     File Name File Start Time Number of Seizures in File  \
0      12:42:54  chb01_01.edf        11:42:54                          0   
1      13:42:57  chb01_02.edf        12:42:57                          0   
2      14:43:04  chb01_03.edf        13:43:04                          1   
3      15:43:12  chb01_04.edf        14:43:12                          1   
4      16:43:19  chb01_05.edf        15:43:19                          0   

a Seizure End Time Seizure Start Time  
0             None               None  
1             None               None  
2     3036 seconds       2996 seconds  
3     1494 seconds       1467 seconds  
4             None               None