R 从';创建大型频率表;刮伤';有具体的比率/数值吗?

R 从';创建大型频率表;刮伤';有具体的比率/数值吗?,r,statistics,tidyverse,R,Statistics,Tidyverse,我有一个我想不出来的问题,我必须解决。 我有3个(tibble)数据帧,其中只包含不同总体的名称 df1是瑞典所有的、唯一的姓氏,一列带有计数 382.492(唯一名称*计数)=df1中的10002985人 10002985是本“实验”中的总人口 df2是瑞典所有注册律师的名单 总人口中有6211名律师 df3是瑞典所有拥有贵族姓氏的人的名单 人口中有542个独特的名字和46851个贵族姓氏 我们还知道,在律师小组中有: 106人,姓高贵的律师 现在我的问题是,我只想用所有这些信

我有一个我想不出来的问题,我必须解决。 我有3个(tibble)数据帧,其中只包含不同总体的名称

df1是瑞典所有的、唯一的姓氏,一列带有计数

  • 382.492(唯一名称*计数)=df1中的10002985人
  • 10002985是本“实验”中的总人口
df2是瑞典所有注册律师的名单

  • 总人口中有6211名律师
df3是瑞典所有拥有贵族姓氏的人的名单

  • 人口中有542个独特的名字和46851个贵族姓氏
我们还知道,在律师小组中有:

  • 106人,姓高贵的律师
现在我的问题是,我只想用所有这些信息创建一个df。 应该是这样的:

主要思想是创建一个df,每个群体一行:10002985行。 noble and lawyer是一个虚拟变量,其中1=yes,0=no。例如:对于tot_pop,46851人的noble=1,该组中的106人的lawyer=1

请注意,我并不真正关心名称是什么——我只关心比率

还要注意,我之所以要创建一个没有名称的新数据帧,是因为我认为这是解决问题的唯一方法,至少是最简单的方法。但如果有人坚持的话——我可以从每个df上传一些样本数据。 最后我想做一些概率测试


如果问题令人困惑,请告诉我。另外,让我知道这是否真的是一种愚蠢的方式:p解决方案:

当我意识到我在寻找什么时,这很容易:) 可能有一个更优雅的解决方案


# pop
pop <- 1:10002985

# noble
n <- c(46851, 9956134)
noble <- rep(1:0, n)

# attorney
a <- c(106,46745, 46745, 9909389)
attorney <- rep(c(1,0,1,0), a)

final_data <- tibble(pop, noble, attorney)


#流行音乐
流行音乐