R 计算按列分组的值_R_Vector_Dataframe_Analytics

R 计算按列分组的值

r vector dataframe

R 计算按列分组的值,r,vector,dataframe,analytics,R,Vector,Dataframe,Analytics,我有一个数据框，如下所示： > head(data1) Age Gender Impressions Clicks Signed_In agecat scode 1 36 0 3 0 1 (34,44] Imps 2 73 1 3 0 1 (64, Inf] Imps 3 30 0 3 0 1

我有一个数据框，如下所示：

> head(data1)
  Age Gender Impressions Clicks Signed_In    agecat  scode
1  36      0           3      0         1   (34,44]   Imps
2  73      1           3      0         1 (64, Inf]   Imps
3  30      0           3      0         1   (24,34]   Imps
4  49      1           3      0         1   (44,54]   Imps
5  47      1          11      0         1   (44,54]   Imps
6  47      0          11      1         1   (44,54] Clicks

Str信息：

> str(data1)
'data.frame':   458441 obs. of  7 variables:
 $ Age        : int  36 73 30 49 47 47 0 46 16 52 ...
 $ Gender     : int  0 1 0 1 1 0 0 0 0 0 ...
 $ Impressions: int  3 3 3 3 11 11 7 5 3 4 ...
 $ Clicks     : int  0 0 0 0 0 1 1 0 0 0 ...
 $ Signed_In  : int  1 1 1 1 1 1 0 1 1 1 ...
 $ agecat     : Factor w/ 8 levels "(-Inf,0]","(0,18]",..: 5 8 4 6 6 6 1 6 2 6 ...
 $ scode      : Factor w/ 3 levels "Clicks","Imps",..: 2 2 2 2 2 1 1 2 2 2 ...
>

对于想要计算点击率（CTR）的每一行，点击率定义为（点击/印象）*100

我想得到每个类别中每个性别的平均CTR。比如：

Gender 0, Category (0,18] CTR = ??.
Gender 1, Category (0,18] CTR = ??.
Gender 0, Category (18,24] CTR = ??.
Gender 1, Category (18,24] CTR = ??.
and so on...

我如何用R语言实现这一点

我最初尝试的一些东西是按性别分组的：

> calcCTR <- function(var1,var2){
+   (var1*100)/var2
+ }

花了令人费解的很长时间

另一种方法：

> summaryBy(((Clicks*100)/Impressions)~Gender, data=data1, FUN=sum)
  Gender ((Clicks * 100)/Impressions).sum
1      0                              NaN
2      1                              NaN
>

我还向数据中添加了列CTR：

> data1$ctr = (data1$Clicks/data1$Impressions)*100
> head(data1)
  Age Gender Impressions Clicks Signed_In    agecat  scode      ctr
1  36      0           3      0         1   (34,44]   Imps 0.000000
2  73      1           3      0         1 (64, Inf]   Imps 0.000000
3  30      0           3      0         1   (24,34]   Imps 0.000000
4  49      1           3      0         1   (44,54]   Imps 0.000000
5  47      1          11      0         1   (44,54]   Imps 0.000000
6  47      0          11      1         1   (44,54] Clicks 9.090909
>

然而，当我按性别或年龄对它进行分层时，它给了我NaN

> summaryBy(ctr~agecat,
+ data=data1);
     agecat ctr.mean
1  (-Inf,0]      NaN
2    (0,18]      NaN
3   (18,24]      NaN
4   (24,34]      NaN
5   (34,44]      NaN
6   (44,54]      NaN
7   (54,64]      NaN
8 (64, Inf]      NaN
> summaryBy(ctr~Gender,
+ data=data1);
  Gender ctr.mean
1      0      NaN
2      1      NaN
>

这个简单的例子应该可以帮助您开始

#create our trivial data set
dat<-data.frame(c1=rep(c("a","b"),each=2),c2=rep(1:2,2),val=rnorm(4))
#look into learning about tapply, lapply, apply, sapply, 
tapply(dat$val, list(dat$c1,dat$c2),mean)

#创建我们的琐碎数据集
dat这应该会让你开始：
library(data.table)
dt = as.data.table(data1)

dt[, mean((Clicks/Impressions)*100), by = list(Gender, agecat)]

当我尝试上面的代码时，我得到了如下结果，我认为这只是一个NA值列表。我该怎么办？>dt[，mean（（点击/印象）*100），by=list（Gender，agecat）]Gender agecat V1:0（34,44]na2:1（64,Inf]na3:0（24,34]na4:1（44,54]na5:0（44,54]na6:0（-Inf，0]na7:0（0,18]na8:0（18,24]na9:0（54,64]na10:1（34,44]na11:1（24,34]na12:1（54,64]na13:1（18,24]na14:0（64，Inf]na15:1（0,18]NA@Archana您的数据中有NA，请尝试平均值（（点击/印象）*100，NA.rm=T）（并查看这些NA是否应该存在）
library(data.table)
dt = as.data.table(data1)

dt[, mean((Clicks/Impressions)*100), by = list(Gender, agecat)]