Python 将数据帧重塑为堆叠/记录/数据库/长格式

Python 将数据帧重塑为堆叠/记录/数据库/长格式,python,pandas,dataframe,scientific-computing,Python,Pandas,Dataframe,Scientific Computing,将数据帧从宽格式转换为堆叠/记录/数据库/长格式的最佳方法是什么 下面是一个小代码示例: 宽格式: date hour1 hour2 hour3 hour4 2012-12-31 9.18 -0.10 -7.00 -64.92 2012-12-30 13.91 0.09 -0.96 0.08 2012-12-29 12.97 11.82 11.65 10.20 2012-12-28 22.01 16.04 15.68 11.67 2012-

将数据帧从宽格式转换为堆叠/记录/数据库/长格式的最佳方法是什么

下面是一个小代码示例:

宽格式:

date        hour1  hour2  hour3  hour4
2012-12-31   9.18  -0.10  -7.00 -64.92
2012-12-30  13.91   0.09  -0.96   0.08
2012-12-29  12.97  11.82  11.65  10.20
2012-12-28  22.01  16.04  15.68  11.67
2012-12-27  11.44   0.07 -19.97 -67.98
...
堆叠/记录/数据库/长格式(需要):

您可以使用将数据帧从宽格式转换为长格式:

import pandas as pd
df = pd.DataFrame({'date': ['2012-12-31', '2012-12-30', '2012-12-29', '2012-12-28', '2012-12-27'],
                   'hour1': [9.18, 13.91, 12.97, 22.01, 11.44],
                   'hour2': [-0.1, 0.09, 11.82, 16.04, 0.07]})
print pd.melt(df, id_vars=['date'], value_vars=['hour1', 'hour2'], var_name='hour', value_name='price')
输出:

         date   hour  price
0  2012-12-31  hour1   9.18
1  2012-12-30  hour1  13.91
2  2012-12-29  hour1  12.97
3  2012-12-28  hour1  22.01
4  2012-12-27  hour1  11.44
5  2012-12-31  hour2  -0.10
6  2012-12-30  hour2   0.09
7  2012-12-29  hour2  11.82
8  2012-12-28  hour2  16.04
9  2012-12-27  hour2   0.07
您可以使用来透视数据帧。第一组
date
作为索引列:

>>> df.set_index('date').stack()
date             
2012-12-31  hour1      9.18
            hour2     -0.10
            hour3     -7.00
            hour4    -64.92
2012-12-30  hour1     13.91
            hour2      0.09
            hour3     -0.96
            hour4      0.08
...
这实际上返回一个带有多索引的序列。要创建类似您指定的数据帧,可以在堆叠后重置多重索引并重命名列:

>>> stacked = df.set_index('date').stack()
>>> df2 = stacked.reset_index()
>>> df2.columns = ['date', 'hour', 'price']
>>> df2
          date   hour   price
0   2012-12-31  hour1    9.18
1   2012-12-31  hour2   -0.10
2   2012-12-31  hour3   -7.00
3   2012-12-31  hour4  -64.92
4   2012-12-30  hour1   13.91
5   2012-12-30  hour2    0.09
6   2012-12-30  hour3   -0.96
7   2012-12-30  hour4    0.08
...

很有魅力:)谢谢!!我已经尝试过使用stack()函数,但不知道重置多重索引会解决我的问题。谢谢你们两个!!
>>> stacked = df.set_index('date').stack()
>>> df2 = stacked.reset_index()
>>> df2.columns = ['date', 'hour', 'price']
>>> df2
          date   hour   price
0   2012-12-31  hour1    9.18
1   2012-12-31  hour2   -0.10
2   2012-12-31  hour3   -7.00
3   2012-12-31  hour4  -64.92
4   2012-12-30  hour1   13.91
5   2012-12-30  hour2    0.09
6   2012-12-30  hour3   -0.96
7   2012-12-30  hour4    0.08
...