如何处理R中的不平衡数据集?

如何处理R中的不平衡数据集?,r,R,我有以下问题。我的数据集包含关于网球运动员的信息以及他们在职业生涯中每个赛季的比赛次数 Name Season Games Nadal 2015 84 Novak 2017 14 Nadal 2016 88 Federer 2018 75 Nadal 2010 45 . . . 我想创建一个新的数据集,其中只包括玩了五年或更长时间的玩家 我想,我必须以某种方式汇总球员,然后过滤他们。请问我该怎么做?使用dplyr您可以计算并过滤数据帧。 例如,我创建了这个虚拟数据帧: df=data.fram

我有以下问题。我的数据集包含关于网球运动员的信息以及他们在职业生涯中每个赛季的比赛次数

Name Season Games
Nadal 2015 84
Novak 2017 14
Nadal 2016 88
Federer 2018 75
Nadal 2010 45
.
.
.
我想创建一个新的数据集,其中只包括玩了五年或更长时间的玩家


我想,我必须以某种方式汇总球员,然后过滤他们。请问我该怎么做?

使用
dplyr
您可以计算并过滤数据帧。 例如,我创建了这个虚拟数据帧:

df=data.frame(P=c(“A”、“A”、“A”、“A”、“A”、“A”、“A”、“B”、“B”、“c”、“c”、“c”),
y=c(1,4,5,8,7,4,2,3,4,8,7,4,1))
图书馆(dplyr)
df%%>%分组依据(P)%%>%添加计数(P)%%>%筛选器(n>5)
#一个tibble:7x3
#分组:P[1]
P y n
1A 17
2 A 4 7
3 A 5 7
4 A 8 7
5 A 7 7
6 A 4 7
7 A 2 7
使用dataframe,您可以尝试:

df%%>%group\u by(Name)%%>%add\u count(Name)%%>%filter(n>=5)

到目前为止,您尝试了什么,是否查看了已发布的任何问题?您可能会发现此线程非常有用: