Python 熊猫数据帧堆栈和熔化
我想将我的数据帧转换为如下所示:Python 熊猫数据帧堆栈和熔化,python,pandas,dataframe,Python,Pandas,Dataframe,我想将我的数据帧转换为如下所示: a = {'pk': 1, 'pk_name':'p1', 'c1':1, 'c1_val': 1, 'c1_val2': 1, 'c2':0, 'c2_val': 0, 'c2_val2': 1} b = {'pk': 2, 'pk_name':'p2', 'c1':0, 'c1_val': 1, 'c1_val2': 1, 'c2':0, 'c2_val': 0, 'c2_val2': 1} c = {'pk': 3, 'pk_name':'p3', 'c1
a = {'pk': 1, 'pk_name':'p1', 'c1':1, 'c1_val': 1, 'c1_val2': 1, 'c2':0, 'c2_val': 0, 'c2_val2': 1}
b = {'pk': 2, 'pk_name':'p2', 'c1':0, 'c1_val': 1, 'c1_val2': 1, 'c2':0, 'c2_val': 0, 'c2_val2': 1}
c = {'pk': 3, 'pk_name':'p3', 'c1':0, 'c1_val': 1, 'c1_val2': 1, 'c2':0, 'c2_val': 0, 'c2_val2': 1}
d = {'pk': 4, 'pk_name':'p4', 'c1':1, 'c1_val': 1, 'c1_val2': 1, 'c2':0, 'c2_val': 0, 'c2_val2': 1}
e = {'pk': 5, 'pk_name':'p5', 'c1':1, 'c1_val': 1, 'c1_val2': 1, 'c2':0, 'c2_val': 0, 'c2_val2': 1}
df = pd.DataFrame([a, b, c, d, e])
pk pk_name c1 c1_val c1_val2 c2 c2_val c2_val2
0 1 p1 1 1 1 0 0 1
1 2 p2 0 1 1 0 0 1
2 3 p3 0 1 1 0 0 1
3 4 p4 1 1 1 0 0 1
4 5 p5 1 1 1 0 0 1
将以c(c1,c2)开头的列堆叠起来,将val列(val,val2)融化成长格式。使用
lreshape
提取列名称:
pk pk_name c val val2
0 1 p1 1 1 1
1 2 p2 0 1 1
2 3 p3 0 1 1
3 4 p4 1 1 1
4 5 p5 1 1 1
5 1 p1 0 0 1
6 2 p2 0 0 1
7 3 p3 0 0 1
8 4 p4 0 0 1
9 5 p5 0 0 1
如果应更改顺序,则将列拆分为多索引
,然后通过以下方式重塑形状:
将
lreshape
与提取的列名称一起使用:
pk pk_name c val val2
0 1 p1 1 1 1
1 2 p2 0 1 1
2 3 p3 0 1 1
3 4 p4 1 1 1
4 5 p5 1 1 1
5 1 p1 0 0 1
6 2 p2 0 0 1
7 3 p3 0 0 1
8 4 p4 0 0 1
9 5 p5 0 0 1
如果应更改顺序,则将列拆分为多索引
,然后通过以下方式重塑形状:
试试这个:
#rename columns with c and number - add `_c`
cols = df.columns[df.columns.str.contains('^c\d+$')]
df = df.rename(columns = dict(zip(cols, cols + '_c')))
df1 = df.set_index(['pk','pk_name'])
df1.columns = df1.columns.str.split('_', expand=True)
df1 = df1.stack(0).reset_index(level=2, drop=True).reset_index()
print (df1)
pk pk_name c val val2
0 1 p1 1 1 1
1 1 p1 0 0 1
2 2 p2 0 1 1
3 2 p2 0 0 1
4 3 p3 0 1 1
5 3 p3 0 0 1
6 4 p4 1 1 1
7 4 p4 0 0 1
8 5 p5 1 1 1
9 5 p5 0 0 1
试试这个:
#rename columns with c and number - add `_c`
cols = df.columns[df.columns.str.contains('^c\d+$')]
df = df.rename(columns = dict(zip(cols, cols + '_c')))
df1 = df.set_index(['pk','pk_name'])
df1.columns = df1.columns.str.split('_', expand=True)
df1 = df1.stack(0).reset_index(level=2, drop=True).reset_index()
print (df1)
pk pk_name c val val2
0 1 p1 1 1 1
1 1 p1 0 0 1
2 2 p2 0 1 1
3 2 p2 0 0 1
4 3 p3 0 1 1
5 3 p3 0 0 1
6 4 p4 1 1 1
7 4 p4 0 0 1
8 5 p5 1 1 1
9 5 p5 0 0 1
@yatu-它是未记录的函数,在一些后续版本中似乎会被删除,@yatu-它是未记录的函数,在一些后续版本中似乎会被删除,