Julia：从分组数据帧中采样N个组_Julia

Julia：从分组数据帧中采样N个组

julia

Julia：从分组数据帧中采样N个组,julia,Julia,我有一个产品销售的时间序列记录的数据框，我用它来绘制，但是有很多，我想要一个随机样本N 这是一个包含三项的简化数据示例，我想随机抽取其中两项： df = DataFrame(time = [0, 1, 0, 1, 0, 1] , amt = [19.00, 11.00, 35.50, 32.50, 5.99, 5.99] , item = ["B001", "B001", "B020", "B020"

我有一个产品销售的时间序列记录的数据框，我用它来绘制，但是有很多，我想要一个随机样本N

这是一个包含三项的简化数据示例，我想随机抽取其中两项：

df = DataFrame(time = [0, 1, 0, 1, 0, 1]
    , amt = [19.00, 11.00, 35.50, 32.50, 5.99, 5.99]
    , item = ["B001", "B001", "B020", "B020", "BX00", "BX00"])

6×3 DataFrame
│ Row │ time  │ amt     │ item   │
│     │ Int64 │ Float64 │ String │
├─────┼───────┼─────────┼────────┤
│ 1   │ 0     │ 19.0    │ B001   │
│ 2   │ 1     │ 11.0    │ B001   │
│ 3   │ 0     │ 35.5    │ B020   │
│ 4   │ 1     │ 32.5    │ B020   │
│ 5   │ 0     │ 5.99    │ BX00   │
│ 6   │ 1     │ 5.99    │ BX00   │

经过一些研究，我找到了一个解决方案，但它似乎不是表达这一点的简单方式

# this attaches a random number to each group, sorts it, and then ranks each group:

using StatsBase

@pipe df |> groupby(_, :item) |>
     combine(_, :time, :amt, :item, :item => (x -> rand()) => :rando) |>
     sort(_, :rando) |>
     transform(_, :rando => denserank => :rnk_rnd)

6×5 DataFrame
│ Row │ item   │ time  │ amt     │ rando    │ rnk_rnd │
│     │ String │ Int64 │ Float64 │ Float64  │ Int64   │
├─────┼────────┼───────┼─────────┼──────────┼─────────┤
│ 1   │ B001   │ 0     │ 19.0    │ 0.449577 │ 1       │
│ 2   │ B001   │ 1     │ 11.0    │ 0.449577 │ 1       │
│ 3   │ BX00   │ 0     │ 5.99    │ 0.482569 │ 2       │
│ 4   │ BX00   │ 1     │ 5.99    │ 0.482569 │ 2       │
│ 5   │ B020   │ 0     │ 35.5    │ 0.612401 │ 3       │
│ 6   │ B020   │ 1     │ 32.5    │ 0.612401 │ 3       │


# I only need the original columns, and I'll filter for the first N=2 items from the re-constituted dataframe

@pipe ans |> filter(:rnk_rnd => <=(2), _)  |>
     select(_, :item, :time, :amt)

4×3 DataFrame
│ Row │ item   │ time  │ amt     │
│     │ String │ Int64 │ Float64 │
├─────┼────────┼───────┼─────────┤
│ 1   │ BX00   │ 0     │ 5.99    │
│ 2   │ BX00   │ 1     │ 5.99    │
│ 3   │ B001   │ 0     │ 19.0    │
│ 4   │ B001   │ 1     │ 11.0    │

# this is exactly what I'm looking for

没有其他更紧凑的方法从分组数据帧中随机抽取组样本吗？

我选择了一个更紧凑的表达式

这将产生相同的随机选择组，作为数据帧返回：

4×3 DataFrame
│ Row │ item   │ time  │ amt     │
│     │ String │ Int64 │ Float64 │
├─────┼────────┼───────┼─────────┤
│ 1   │ BX00   │ 0     │ 5.99    │
│ 2   │ BX00   │ 1     │ 5.99    │
│ 3   │ B020   │ 0     │ 35.5    │
│ 4   │ B020   │ 1     │ 32.5    │

我认为，如果我们都投票表决的话，分组df最终会有一个洗牌功能

另一种选择是使用StatsBase.jl中的样本：

@pipe df |>
      groupby(_, :item) |>
      _[sample(1:length(_), 2, replace=false)] |>
      DataFrame

如果您接受数据帧中的随机分数q，而不是一个固定的数字，则更容易：

@pipe df |>
      groupby(_, :item) |>
      combine(sdf -> rand() < q ? sdf : DataFrame(), _)

首先需要合并。对于一般情况，我更喜欢随机分数解决方案。我演示了它，因为它另外给出了一个示例，说明了如何在合并中删除组。

@pipe df |>
      groupby(_, :item) |>
      combine(sdf -> rand() < q ? sdf : DataFrame(), _)