获取集合的平均值 ;R中的天数
假设我有这个数据框获取集合的平均值 ;R中的天数,r,dplyr,R,Dplyr,假设我有这个数据框 Date DayOfWeek Url Hits 09/01/2016 Thursday url1 3 09/01/2016 Thursday url2 5 09/01/2016 Thursday url3 4 09/02/2016 Friday url1 7 09/02/2016 Friday url3 6 09/03/2016
Date DayOfWeek Url Hits
09/01/2016 Thursday url1 3
09/01/2016 Thursday url2 5
09/01/2016 Thursday url3 4
09/02/2016 Friday url1 7
09/02/2016 Friday url3 6
09/03/2016 Saturday url2 9
09/03/2016 Saturday url1 5
09/04/2016 Sunday url2 6
09/07/2016 Wednesday url10 4
09/07/2016 Thursday url2 3
09/07/2016 Thursday url4 2
09/07/2016 Thursday url5 3
09/07/2016 Thursday url1 3
09/08/2016 Friday url1 3
09/08/2016 Friday url4 3
09/08/2016 Friday url5 2
09/08/2016 Friday url8 6
09/09/2016 Saturday url2 1
09/09/2016 Saturday url3 2
09/09/2016 Saturday url5 4
09/09/2016 Saturday url1 8
09/14/2016 Thursday url1 3
09/147/2016 Thursday url2 2
09/14/2016 Thursday url3 3
我想得到一周中最忙的一天,访问的唯一url的数量。例如,在数据框中有3个星期四,第一个星期四有3个访问的唯一URL,第二个星期四有4个,最后一个星期四有3个。。。我计划做的是,把URL的数量加起来=3+4+3/(#of thursdays=3)=这一天唯一URL的平均数量
对于星期五,第一个是2个URL,第二个是4个URL,计算结果是2+4/数据集中的星期五数=2
我正试图通过dplyr解决这个问题。我试着使用group_by,但我似乎无法确定正确的函数组合以达到我所需要的 我们得到每个“日期”和“星期日”的不同“Url”(“N”)的数量(
N_distinct
),并得到每个“星期日”的“N”的平均值
library(dplyr)
df1 %>%
group_by(Date, DayOfWeek) %>%
summarise(N = n_distinct(Url)) %>%
group_by(DayOfWeek) %>%
summarise(N = mean(N))
# DayOfWeek N
# <chr> <dbl>
#1 Friday 3.000000
#2 Saturday 3.000000
#3 Sunday 1.000000
#4 Thursday 3.333333
#5 Wednesday 1.000000
库(dplyr)
df1%>%
分组人(日期,星期五)%>%
摘要(N=N_不同的(Url))%>%
分组人(星期一)%>%
总结(N=平均值(N))
#星期五
#
#1星期五300万
#2星期六300万
#3星期日1.000000
#4星期四3时33分
#5星期三1.000000
第一个组中的DayOfWeek
可能是多余的?如果我们不使用“DayOfWeek”,它将获得整个“星期四”的“唯一”Url的长度。我猜警察想这么做separately@rosscova我认为你是对的,但我们不会得到“DayOfWeek”信息OK,所以这只是为了确保DayOfWeek
列进入下一步,然后?@rosscova,否则我可能不得不求助于mutate