Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/66.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
获取集合的平均值 ;R中的天数_R_Dplyr - Fatal编程技术网

获取集合的平均值 ;R中的天数

获取集合的平均值 ;R中的天数,r,dplyr,R,Dplyr,假设我有这个数据框 Date DayOfWeek Url Hits 09/01/2016 Thursday url1 3 09/01/2016 Thursday url2 5 09/01/2016 Thursday url3 4 09/02/2016 Friday url1 7 09/02/2016 Friday url3 6 09/03/2016

假设我有这个数据框

Date           DayOfWeek    Url    Hits
09/01/2016     Thursday     url1   3
09/01/2016     Thursday     url2   5
09/01/2016     Thursday     url3   4
09/02/2016     Friday       url1   7
09/02/2016     Friday       url3   6
09/03/2016     Saturday     url2   9
09/03/2016     Saturday     url1   5
09/04/2016     Sunday       url2   6
09/07/2016     Wednesday    url10  4
09/07/2016     Thursday     url2   3
09/07/2016     Thursday     url4   2
09/07/2016     Thursday     url5   3
09/07/2016     Thursday     url1   3
09/08/2016     Friday     url1   3
09/08/2016     Friday     url4   3
09/08/2016     Friday     url5   2
09/08/2016     Friday     url8   6
09/09/2016     Saturday     url2   1
09/09/2016     Saturday     url3   2
09/09/2016     Saturday     url5   4
09/09/2016     Saturday     url1   8
09/14/2016     Thursday     url1   3
09/147/2016     Thursday     url2   2
09/14/2016     Thursday     url3   3
我想得到一周中最忙的一天,访问的唯一url的数量。例如,在数据框中有3个星期四,第一个星期四有3个访问的唯一URL,第二个星期四有4个,最后一个星期四有3个。。。我计划做的是,把URL的数量加起来=3+4+3/(#of thursdays=3)=这一天唯一URL的平均数量

对于星期五,第一个是2个URL,第二个是4个URL,计算结果是2+4/数据集中的星期五数=2


我正试图通过dplyr解决这个问题。我试着使用group_by,但我似乎无法确定正确的函数组合以达到我所需要的

我们得到每个“日期”和“星期日”的不同“Url”(“N”)的数量(
N_distinct
),并得到每个“星期日”的“N”的
平均值

library(dplyr)
df1 %>% 
    group_by(Date, DayOfWeek) %>%
    summarise(N = n_distinct(Url)) %>% 
    group_by(DayOfWeek) %>% 
    summarise(N = mean(N))
# DayOfWeek        N
#      <chr>    <dbl>
#1    Friday 3.000000
#2  Saturday 3.000000
#3    Sunday 1.000000
#4  Thursday 3.333333
#5 Wednesday 1.000000
库(dplyr)
df1%>%
分组人(日期,星期五)%>%
摘要(N=N_不同的(Url))%>%
分组人(星期一)%>%
总结(N=平均值(N))
#星期五
#          
#1星期五300万
#2星期六300万
#3星期日1.000000
#4星期四3时33分
#5星期三1.000000

第一个
组中的
DayOfWeek
可能是多余的?如果我们不使用“DayOfWeek”,它将获得整个“星期四”的“唯一”Url的长度。我猜警察想这么做separately@rosscova我认为你是对的,但我们不会得到“DayOfWeek”信息OK,所以这只是为了确保
DayOfWeek
列进入下一步,然后?@rosscova,否则我可能不得不求助于
mutate