Dataframe 我可以在Julia中使用数据帧按天或月分组吗_Dataframe_Datetime_Julia

Dataframe 我可以在Julia中使用数据帧按天或月分组吗

dataframe datetime julia

Dataframe 我可以在Julia中使用数据帧按天或月分组吗,dataframe,datetime,julia,Dataframe,Datetime,Julia,我正在使用一个数据框，其中column1是DateTime类型，其他所有列都是Float64，表示每小时的用水量。该数据框跨越了2年的用水量，每天每小时记录一次，大致如下所示 Date | UserID1 | UserID2 | UserID3 | ... DateTime | Float64 | Float64 | Float64 | ... -----------------------------------------------

我正在使用一个数据框，其中column1是DateTime类型，其他所有列都是Float64，表示每小时的用水量。该数据框跨越了2年的用水量，每天每小时记录一次，大致如下所示

Date                 | UserID1 | UserID2 | UserID3 | ...
DateTime             | Float64 | Float64 | Float64 | ...
---------------------------------------------------------
2017-01-01 00:00:00  | 1.5     | 22.5    | 5.5     | ...
2017-01-01 01:00:00  | 4.5     | 3.2     | 9.12    | ...
.
.
.
2019-12-31 22:00:00 |  4.2     |  7.6    | 8.9     | ...
2029-12-31 23:00:00 |  3.2     |  0.9    | 11.2    | ...

我想使用

groupby

来计算每个月所有用户的用水量。在熊猫身上，我可以很容易地做类似的事情

df.groupby（df.index.month.sum（）

我想不出Julia DataFrames的类比。 Im使用CSV、数据帧和日期包。我可以循环查看Date列中的每个条目，如

for i in df.Date
   if day(i) == 1
.
.
.

但是我真的很想使用

groupby

，因为它是一个如此大的数据帧，除了

sum

之外，我还想执行其他一些函数，请考虑以下

数据帧

：

julia> df = DataFrame(date=Date.(2020,rand(1:5,10), rand(1:28, 10)),val=rand(1:20,10))
10×2 DataFrame
│ Row │ date       │ val   │
│     │ Date       │ Int64 │
├─────┼────────────┼───────┤
│ 1   │ 2020-01-07 │ 17    │
│ 2   │ 2020-04-17 │ 2     │
│ 3   │ 2020-01-18 │ 18    │
│ 4   │ 2020-01-01 │ 11    │
│ 5   │ 2020-04-25 │ 16    │
│ 6   │ 2020-05-08 │ 5     │
│ 7   │ 2020-04-10 │ 4     │
│ 8   │ 2020-02-12 │ 10    │
│ 9   │ 2020-04-16 │ 1     │
│ 10  │ 2020-03-16 │ 15    │

可使用以下功能将其分组：

julia> groupby(transform(df, :date => x->yearmonth.(x)),:date_function)
GroupedDataFrame with 5 groups based on key: date_function
First Group (3 rows): date_function = (2020, 1)
│ Row │ date       │ val   │ date_function │
│     │ Date       │ Int64 │ Tuple…        │
├─────┼────────────┼───────┼───────────────┤
│ 1   │ 2020-01-07 │ 17    │ (2020, 1)     │
│ 2   │ 2020-01-18 │ 18    │ (2020, 1)     │
│ 3   │ 2020-01-01 │ 11    │ (2020, 1)     │
⋮
Last Group (1 row): date_function = (2020, 3)
│ Row │ date       │ val   │ date_function │
│     │ Date       │ Int64 │ Tuple…        │
├─────┼────────────┼───────┼───────────────┤
│ 1   │ 2020-03-16 │ 15    │ (2020, 3)     │

或使用查询

：
julia> df |>
          @groupby(yearmonth(_.date)) |>
          @map({YearMonth=key(_), Sum=sum(_.val)}) |>
          DataFrame
5×2 DataFrame
│ Row │ YearMonth │ Sum   │
│     │ Tuple…    │ Int64 │
├─────┼───────────┼───────┤
│ 1   │ (2020, 1) │ 46    │
│ 2   │ (2020, 4) │ 23    │
│ 3   │ (2020, 5) │ 5     │
│ 4   │ (2020, 2) │ 10    │
│ 5   │ (2020, 3) │ 15    │

等效但稍好一些：groupby（transform（df，：date=>ByRow（yearmonth）），：date\u yearmonth）
。如果不改变列，还可以将copycols=false
传递给transform
，以提高性能。