R 多变量计数
我有一个非常大的数据集显示登录到一个网站。我试图通过用户名计算登录的频率 我希望得到的是一个如下表,其中周期作为列标题列出,频率是行名称,数据是给定日期登录到标题行中的次数的用户数,即R 多变量计数,r,summary,R,Summary,我有一个非常大的数据集显示登录到一个网站。我试图通过用户名计算登录的频率 我希望得到的是一个如下表,其中周期作为列标题列出,频率是行名称,数据是给定日期登录到标题行中的次数的用户数,即 [weekday] [Mon][tue][etc] [logins ] [ 1][123][456][789] [ 2][987][654][321] [ etc][123][456][789] 源数据只是登录id、登录日期/时间。我已经能够根据登录日期添加附加月份、日期名称
[weekday] [Mon][tue][etc]
[logins ]
[ 1][123][456][789]
[ 2][987][654][321]
[ etc][123][456][789]
源数据只是登录id、登录日期/时间。我已经能够根据登录日期添加附加月份、日期名称和日期的列
理想情况下,我希望能够为每个类别(月、月日、日名称)获得与上述相同的摘要
库(lubridate)
图书馆(dplyr)
图书馆(rpivotTable)
df=data.frame(数据源)
df$MonthNumber您可以尝试使用dplyr
中的groupby
功能。因为您需要每个用户每天的登录次数,所以我们按用户id和日期分组<代码>结果%groupby(USERID,Date)%%>%summary(Logins=n())
。n()
函数只计算组中的行数。另外,请注意,我们不需要创建其他日期变量,因为我们可以根据原始日期值进行分组。A在这里非常有用。感谢您的指导,您的解决方案可以告诉我用户在特定日期登录的次数。我想知道的更像是“一周中最忙的一天是什么?”所以我需要给定用户在周一登录的次数。我觉得如果它更像是results%groupby(DayName,Logins=n())%%>%summary(Logins=n())
我会得到我想要的东西。我发现“results”您可以尝试在dplyr
中使用groupby
函数。因为您需要每个用户每天的登录次数,所以我们按用户id和日期分组<代码>结果%groupby(USERID,Date)%%>%summary(Logins=n())。n()
函数只计算组中的行数。另外,请注意,我们不需要创建其他日期变量,因为我们可以根据原始日期值进行分组。A在这里非常有用。感谢您的指导,您的解决方案可以告诉我用户在特定日期登录的次数。我想知道的更像是“一周中最忙的一天是什么?”所以我需要给定用户在周一登录的次数。我觉得如果它更像是results%group\u by(DayName,Logins=n())%%>%summary(Logins=n())
我会得到我想要的东西。我已经找到了“results”
library(lubridate )
library(dplyr)
library(rpivotTable)
df = data.frame(datasource)
df$MonthNumber <- month(df$Date)
df$DayNumber <- wday(df$Date, FALSE, FALSE)
df$DayName <- wday(df$Date, TRUE, FALSE)
#problem is here, i dont know how to get the count of user logins per day
Results <- xtabs(~ DayCount + c(DayName,USERID), df)
write.csv(Results, file="weekdata.csv")
Results