R 具有重复名称的数据子集_R

R 具有重复名称的数据子集

R 具有重复名称的数据子集,r,R,板球数据的子集，具有重复的球员姓名和跑步记录。我的问题是有多少球员的总得分超过5000分？形成这些人的子集以及他们的跑步记录。数据如下。下面是数据的一瞥 "Player" "Runs"--- SM Gavaskar 28 SS Naik 18 AL Wadekar 67 GR Viswanath 4 FM Engineer 32 BP Patel 82 ED Solkar 3 S Abid Ali 17 S Madan Lal 2 S Venkataraghavan

板球数据的子集，具有重复的球员姓名和跑步记录。我的问题是有多少球员的总得分超过5000分？形成这些人的子集以及他们的跑步记录。数据如下。下面是数据的一瞥

"Player"    "Runs"---
SM Gavaskar 28
SS Naik 18
AL Wadekar  67
GR Viswanath    4
FM Engineer 32
BP Patel    82
ED Solkar   3
S Abid Ali  17
S Madan Lal 2
S Venkataraghavan   1
BS Bedi 0
SM Gavaskar 20
SS Naik 20
GK Bose 13
AL Wadekar  6
GR Viswanath    32
FM Engineer 4
BP Patel    12
AV Mankad   44
ED Solkar   0
S Abid Ali  6
S Madan Lal 3
SM Gavaskar 36
ED Solkar   8
AD Gaekwad  22
GR Viswanath    37
BP Patel    16
S Abid Ali  
KD Ghavri   
M Amarnath  
FM Engineer 
S Madan Lal 
S Venkataraghavan   
SM Gavaskar 65
FM Engineer 54

请建议一下方法。在excel中，我们将删除重复项并应用

sumif

。在R中如何？

假设您在Excel中的csv文件中有数据，其中第一列名为“player”表示播放器，第二列名为“runs”表示运行次数

dat <- read.csv("cricket.csv", header=TRUE) # read in the data
dat.nodup <- tapply(dat$runs, dat$player, function(x) sum(x, na.rm=TRUE)) # sum runs for each player with duplicate observations
dat.gt5000 <- dat.nodup[which(dat.nodup > 5000)] # keep only records with > 5000 runs
length(dat.gt5000) # Number of players with > 5000 runs

dat 5000运行

我假设你想计算每个玩家的总跑步次数，那么重复的次数是多少？是的，sumedh，我需要每个玩家的总跑步次数。重复的意思是Gavaskar在其他比赛中有几次跑步，所以我们需要添加他的所有跑步次数。嗨，Kyle，问题是我需要先计算每个玩家的总数，因为玩家是重复的。然后我们可以继续执行您的上述命令。嗨，Kyle，感谢您的回答，我使用您的命令从数据中获得了11次运行，总共超过5000次运行（也与excel交叉验证）。非常感谢你。