R中数据的分组和构建间隔以及有用的可视化
我通过HIVE提取了一些数据。最后,我们讨论的是大约500000行的csv。我想在将它们按间隔分组后绘制它们 除了分组之外,还不清楚如何可视化数据。由于我们谈论的是低支出,有时是高频率,我不知道如何处理这个问题 以下是通过head(数据)的概述 我想按时间间隔对数据进行分组。所以我需要一个额外的列来指示组。第一组应包含频率(称为freq)在1到100之间的所有数据。第二组应该包含所有行,其中条目的频率在101到200之间。。。等等 结果应该是这样的R中数据的分组和构建间隔以及有用的可视化,r,intervals,R,Intervals,我通过HIVE提取了一些数据。最后,我们讨论的是大约500000行的csv。我想在将它们按间隔分组后绘制它们 除了分组之外,还不清楚如何可视化数据。由于我们谈论的是低支出,有时是高频率,我不知道如何处理这个问题 以下是通过head(数据)的概述 我想按时间间隔对数据进行分组。所以我需要一个额外的列来指示组。第一组应包含频率(称为freq)在1到100之间的所有数据。第二组应该包含所有行,其中条目的频率在101到200之间。。。等等 结果应该是这样的 userid64 spe
userid64 spend freq group
575033023245123 0.00924205 489 5
12588968125440467 0.00037 2 1
13830962861053825 0.00168 1 1
18983461971805285 0.001500366 333 3
25159368164208149 0.00215 1 1
32284253673482883 0.001721303 222 2
33221593608613197 0.00298 709 8
39590145306822865 0.001785281 11 1
45831636009567401 0.00397 654 7
71526649454205197 0.000949978 1 1
78782620614743930 0.00552 5 1
有没有一种好的和温和的艺术来得到这个?我需要为即将到来的情节进行分组。我想对所有时间间隔进行可视化,以获得有关花费的概述。如果你对可视化有任何想法,请告诉我。我想我应该使用箱线图。如果你想将
频率
分组为每100个单位,你可以尝试天花板
功能在基本R
ceiling(df$freq / 100)
#[1] 5 1 1 4 1 3 8 1 7 1 1
其中,
df
是您的数据帧 如果您想将freq
分组为每100个单位,您可以尝试base R
ceiling(df$freq / 100)
#[1] 5 1 1 4 1 3 8 1 7 1 1
其中,
df
是您的数据帧 使用整数除法的另一种方法是cut
:as.numeric(cut(x$freq,(0:10)*100))
。注意,这是硬编码的上限;最好以编程方式确定上限,此时只需使用下面的答案就更容易了。使用整数除法的替代方法是cut
:as.numeric(cut(x$freq,(0:10)*100))
。注意,这是硬编码的上限;最好以编程方式确定上限,此时只需使用下面的答案就更容易了。