ddply()并使用length在R中的一组特定行内计数
希望有人能帮我解决这个看似简单的问题,我就是搞不懂ddply()并使用length在R中的一组特定行内计数,r,plyr,R,Plyr,希望有人能帮我解决这个看似简单的问题,我就是搞不懂 name = c('alan', 'alan', 'alan','alan', 'alan', 'alan', 'albert','albert','albert', 'alvin','alvin','alvin','alvin') var = c(0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0 ,0) df = data.frame(name, var) 我拥有的数据集如下: name var 1 al
name = c('alan', 'alan', 'alan','alan', 'alan', 'alan', 'albert','albert','albert', 'alvin','alvin','alvin','alvin')
var = c(0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0 ,0)
df = data.frame(name, var)
我拥有的数据集如下:
name var
1 alan 0
2 alan 1
3 alan 0
4 alan 1
5 alan 1
6 alan 0
7 albert 0
8 albert 0
9 albert 1
10 alvin 1
11 alvin 1
12 alvin 0
13 alvin 0
我想使用ddply来计算除每个名称外的所有1。换句话说,艾伦应该得到三个1,艾伯特得到一个1,阿尔文得到两个1。
因此,理想的输出是:
name counter
1 alan 3
2 albert 1
3 alvin 2
以下是我的代码,但它不起作用:
df.ddply = ddply(df, c('name'), transform, counter=length(df[df['var']>0, 'var']))
我之所以想在这里使用length函数,是因为var列的值可以是0-9
这是上述行的输出:
name counter
1 alan 6
2 albert 6
3 alvin 6
我是不是遗漏了什么?非常感谢您的任何意见 这里有一种使用
dplyr
(plyr的继任者)的方法
库(dplyr)
计数%
分组单位(名称)%>%
总结(
计数器=总和(var))
这里有一种方法可以使用dplyr
(plyr的继任者)
库(dplyr)
计数%
分组单位(名称)%>%
总结(
计数器=总和(var))
如果您想坚持使用plyr
:
df.ddply <- ddply(df, "name", summarise, counter=length(var[var == 1]))
df.ddply如果您想坚持使用plyr
:
df.ddply <- ddply(df, "name", summarise, counter=length(var[var == 1]))
df.ddply这里不需要plyr
,它既不比base R快也不容易阅读。只需使用agggregate
aggregate(var ~ name, df, function(x) sum(x == 1))
# name var
# 1 alan 3
# 2 albert 1
# 3 alvin 2
或者尝试tapply
tapply(df$var, df$name, function(x) sum(x == 1))
# alan albert alvin
# 3 1 2
另一种可能的解决方案是使用dplyr
library(dplyr)
df %>%
group_by(name) %>%
tally(var == 1)
# Source: local data frame [3 x 2]
#
# name n
# 1 alan 3
# 2 albert 1
# 3 alvin 2
虽然我选择的工具总是data.table
包
library(data.table)
setDT(df)[, .(counter = sum(var == 1)), name]
# name counter
# 1: alan 3
# 2: albert 1
# 3: alvin 2
或者(正如@Arun提到的)
尽管这对于大数据集来说应该是最快的(通过
与二进制搜索相结合的方式键入)
这里不需要plyr
,它既不比base R快也不容易阅读。只需使用aggggregate
aggregate(var ~ name, df, function(x) sum(x == 1))
# name var
# 1 alan 3
# 2 albert 1
# 3 alvin 2
或者尝试tapply
tapply(df$var, df$name, function(x) sum(x == 1))
# alan albert alvin
# 3 1 2
另一种可能的解决方案是使用dplyr
library(dplyr)
df %>%
group_by(name) %>%
tally(var == 1)
# Source: local data frame [3 x 2]
#
# name n
# 1 alan 3
# 2 albert 1
# 3 alvin 2
虽然我选择的工具总是data.table
包
library(data.table)
setDT(df)[, .(counter = sum(var == 1)), name]
# name counter
# 1: alan 3
# 2: albert 1
# 3: alvin 2
或者(正如@Arun提到的)
尽管这对于大数据集来说应该是最快的(通过
与二进制搜索相结合的方式键入)
在本例中,您利用的是var只接受值1或0(被忽略)。您可能希望sum(var==1)
在本例中,您正在利用该var,该var只取值1或0(被忽略)。您可能希望sum(var==1)
我希望计算var>0的次数,因为var列的值范围为0-9。抱歉,我的问题不够明确。请参阅编辑。也看看其他的答案,有很多不错的选择!!!你能解释一下代码吗?对不起,我对R很陌生,我告诉代码按名称分组时,为什么我的代码会对所有的1进行计数而不是按名称进行计数?看看df[df['var']>0,'var']
returns-您没有得到预期的结果,我希望计算var>0的次数,因为var列的值范围为0-9。抱歉,我的问题不够明确。请参阅编辑。也看看其他的答案,有很多不错的选择!!!你能解释一下代码吗?对不起,我对R很陌生,我告诉代码按名称分组时,为什么我的代码会对所有的1进行计数而不是按名称进行计数?看看df[df['var']>0,'var']
返回-你没有得到你期望的答案这个问题需要回答多少次,人们才能通过一点搜索找到它?????这个问题需要回答多少次,人们才能通过一点搜索找到它?????count
解决方案是:count(df,name,var)%%>%filter(var==1)
。以一种紧凑的方式,过滤(count(df,name,var),var==1)
。我们还可以对数据执行:setDT(df)[var==1.N,by=name]
表。解决方案是:count(df,name,var)%>%filter(var==1)
。以紧凑的方式,过滤(count(df,name,var),var==1)
。我们还可以对data.table执行:setDT(df)[var==1.N,by=name]
。