R 根据另一个变量(工作满意度)计算变量(工资)的平均值和标准差
我在数据集中有两列,我知道我必须使用函数ddply和summary,但我不知道如何开始。希望这能让您开始:R 根据另一个变量(工作满意度)计算变量(工资)的平均值和标准差,r,plyr,R,Plyr,我在数据集中有两列,我知道我必须使用函数ddply和summary,但我不知道如何开始。希望这能让您开始: data %>% group_by(Satisfaction) %>% summarise(Mean = mean(Salary), SD = sd(Salary)) # A tibble: 7 x 3 Satisfaction Mean SD <int> <dbl> <db
data %>%
group_by(Satisfaction) %>%
summarise(Mean = mean(Salary),
SD = sd(Salary))
# A tibble: 7 x 3
Satisfaction Mean SD
<int> <dbl> <dbl>
1 1 12481. 1437.
2 2 31965. 5235.
3 3 45844. 7631.
4 4 69052. 9257.
5 5 79555. 12975.
6 6 100557. 13739.
7 7 111414. 19139.
如果这样的问题(特别是在R中)是可复制和自包含的,那么它们会做得更好。我的意思是包括尝试的代码(请明确说明非基本包)、样本代表性数据(可能通过
dput(head(x))
或以编程方式构建数据(例如,data.frame(…)
),可能在set.seed(1)
之后随机),可能是实际输出(带有逐字错误/警告)相对于预期输出。参考文献:,和.“员工%>%+团队成员(工作满意度)%>%+总结(平均值=平均值(月收入),+SD=标准差(月收入))#表:4 x 3工作满意度平均值SD 1低6562。46452中等6527。48673高6480。47984甚高6473。有一个简单的方法发布结果吗?我建议编辑你的原始问题或打开一个新问题发布输出。你可以用三个倒勾(`````)来环绕输出以改进格式。好的,可以,我似乎要等90分钟。再次感谢!
set.seed(3)
data <- data.frame(Salary = sapply(rep(1:7,each = 10), function(x){floor(runif(1,x*10000,x*20000))}),
Satisfaction = rep(1:7,each = 10))