Python对多个年份中同一日历日期中记录的值进行排序_Python_Date_Pandas_Group By_Time Series

Python对多个年份中同一日历日期中记录的值进行排序

python date pandas

Python对多个年份中同一日历日期中记录的值进行排序,python,date,pandas,group-by,time-series,Python,Date,Pandas,Group By,Time Series,我正在处理一个数据帧，它包含在这样的多年时间跨度内记录的每日值 Date Position Value 2010-01-01 PEAK 60 2010-01-01 BOTTOM 51 2010-01-02 PEAK 62 2010-01-02 BOTTOM 50 ... 2011-01-01 PEAK 70 2011-01-01 BOTTOM 61 2011-01-02 PEAK 72 2011-01-02 BOTTOM

我正在处理一个数据帧，它包含在这样的多年时间跨度内记录的每日值

   Date    Position  Value
2010-01-01 PEAK      60
2010-01-01 BOTTOM    51
2010-01-02 PEAK      62
2010-01-02 BOTTOM    50
...
2011-01-01 PEAK      70
2011-01-01 BOTTOM    61
2011-01-02 PEAK      72
2011-01-02 BOTTOM    60
...
2015-12-31 PEAK      92
2015-12-31 BOTTOM    83

也就是说，与每个日历日期对应的行条目连续重复6年，不考虑闰年（即2月29日），我想按日历日期对它们进行分组，而不考虑以下格式的年份

       Date    Position  Value
    2010-01-01 PEAK      60
    2010-01-01 BOTTOM    51
    2011-01-01 PEAK      63
    2011-01-01 BOTTOM    57
    ...
    2015-01-01 PEAK      84
    2015-01-01 BOTTOM    71
    ...
    2014-12-31 PEAK      85
    2014-12-31 BOTTOM    79
    2015-12-31 PEAK      92
    2015-12-31 BOTTOM    83

如果我想保留对每个日历日期“组”中的值进行简单计算的余地（例如，max（）、min（）、mean（）），那么执行此类groupby（）操作的更好方法是什么

我确实查阅了以前所有相关的帖子，但似乎找不到适合我的帖子。如果有人能指出更好的方法，我将不胜感激

谢谢。

IIUC您可以这样做：

In [2]: df
Out[2]:
        Date Position  Value
0 2010-01-01     PEAK     60
1 2010-01-01   BOTTOM     51
2 2010-01-02     PEAK     62
3 2010-01-02   BOTTOM     50
4 2011-01-01     PEAK     70
5 2011-01-01   BOTTOM     61
6 2011-01-02     PEAK     72
7 2011-01-02   BOTTOM     60
8 2015-12-31     PEAK     92
9 2015-12-31   BOTTOM     83

In [3]: df.groupby([df.Date.dt.month, df.Date.dt.day, 'Position']).agg(['min','mean','max','sum'])
Out[3]:
                   Value
                     min mean max  sum
Date Date Position
1    1    BOTTOM      51   56  61  112
          PEAK        60   65  70  130
     2    BOTTOM      50   55  60  110
          PEAK        62   67  72  134
12   31   BOTTOM      83   83  83   83
          PEAK        92   92  92   92

你有一个问题要解决。一种方法是使用中间数据帧执行此操作：

df2 = pd.DataFrame([df.Date.dt.month, df.Date.dt.day]).T

df2.columns = [0,1]

df2
Out[32]: 
    0   1
0   1   1
1   1   1
2   1   2
3   1   2
4   1   1
5   1   1
6   1   2
7   1   2
8  12  31
9  12  31

df2 = df2.sort_values([0,1])

现在使用我们现在在

df2

中得到的结果索引重新编制

df

：

df.reindex(df2.index)
Out[36]: 
        Date Position  Value
0 2010-01-01     PEAK     60
1 2010-01-01   BOTTOM     51
4 2011-01-01     PEAK     70
5 2011-01-01   BOTTOM     61
2 2010-01-02     PEAK     62
3 2010-01-02   BOTTOM     50
6 2011-01-02     PEAK     72
7 2011-01-02   BOTTOM     60
8 2015-12-31     PEAK     92
9 2015-12-31   BOTTOM     83

它起作用了。我尝试了您的方法并将值转换为列表。我现在正在绘制这些365个值，并将它们映射到各自的日历日。谢谢，非常感谢。这比我买的要整洁得多。我要再试一次！