Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/spring-mvc/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R中数据的分组和构建间隔以及有用的可视化_R_Intervals - Fatal编程技术网

R中数据的分组和构建间隔以及有用的可视化

R中数据的分组和构建间隔以及有用的可视化,r,intervals,R,Intervals,我通过HIVE提取了一些数据。最后,我们讨论的是大约500000行的csv。我想在将它们按间隔分组后绘制它们 除了分组之外,还不清楚如何可视化数据。由于我们谈论的是低支出,有时是高频率,我不知道如何处理这个问题 以下是通过head(数据)的概述 我想按时间间隔对数据进行分组。所以我需要一个额外的列来指示组。第一组应包含频率(称为freq)在1到100之间的所有数据。第二组应该包含所有行,其中条目的频率在101到200之间。。。等等 结果应该是这样的 userid64 spe

我通过HIVE提取了一些数据。最后,我们讨论的是大约500000行的csv。我想在将它们按间隔分组后绘制它们

除了分组之外,还不清楚如何可视化数据。由于我们谈论的是低支出,有时是高频率,我不知道如何处理这个问题

以下是通过head(数据)的概述

我想按时间间隔对数据进行分组。所以我需要一个额外的列来指示组。第一组应包含频率(称为freq)在1到100之间的所有数据。第二组应该包含所有行,其中条目的频率在101到200之间。。。等等

结果应该是这样的

userid64            spend           freq        group
575033023245123     0.00924205      489         5
12588968125440467   0.00037         2           1
13830962861053825   0.00168         1           1
18983461971805285   0.001500366     333         3
25159368164208149   0.00215         1           1
32284253673482883   0.001721303     222         2
33221593608613197   0.00298         709         8
39590145306822865   0.001785281     11          1
45831636009567401   0.00397         654         7
71526649454205197   0.000949978     1           1
78782620614743930   0.00552         5           1

有没有一种好的和温和的艺术来得到这个?我需要为即将到来的情节进行分组。我想对所有时间间隔进行可视化,以获得有关花费的概述。如果你对可视化有任何想法,请告诉我。我想我应该使用箱线图。

如果你想将
频率
分组为每100个单位,你可以尝试
天花板
功能在
基本R

ceiling(df$freq / 100)

#[1] 5 1 1 4 1 3 8 1 7 1 1

其中,
df
是您的数据帧

如果您想将
freq
分组为每100个单位,您可以尝试
base R

ceiling(df$freq / 100)

#[1] 5 1 1 4 1 3 8 1 7 1 1

其中,
df
是您的数据帧

使用整数除法的另一种方法是
cut
as.numeric(cut(x$freq,(0:10)*100))
。注意,这是硬编码的上限;最好以编程方式确定上限,此时只需使用下面的答案就更容易了。使用整数除法的替代方法是
cut
as.numeric(cut(x$freq,(0:10)*100))
。注意,这是硬编码的上限;最好以编程方式确定上限,此时只需使用下面的答案就更容易了。