Rstudio提取子数据库_R - Fatal编程技术网

Rstudio提取子数据库

Rstudio提取子数据库,r,R,关于Rstudo，我有一个小问题：是否可以根据标准对大型数据库进行子集划分。我有一个大的公司数据集，每个公司（每月）有几次观察。由于数据库非常大，我只想通过对公司进行抽样（占公司总数的10%，这与总观察值的10%不同）。有可能吗例如，在下面的小例子中，我可以随机抽取33%的公司（2家公司）在它们出现的所有年份吗 year_results<-data.frame(Year=c(2006,2006,2006,2007,2007,2007,2008,2008,2008,2008), Firm=

关于Rstudo，我有一个小问题：是否可以根据标准对大型数据库进行子集划分。我有一个大的公司数据集，每个公司（每月）有几次观察。由于数据库非常大，我只想通过对公司进行抽样（占公司总数的10%，这与总观察值的10%不同）。有可能吗

例如，在下面的小例子中，我可以随机抽取33%的公司（2家公司）在它们出现的所有年份吗

year_results<-data.frame(Year=c(2006,2006,2006,2007,2007,2007,2008,2008,2008,2008),
Firm=c("100D","102D","106D","100D","102D","103D","104D","102D","104D","105E"),
Sales=c(100,120,110,120,105,105,100,135,125,110))

year\u results查看subset（）
或dplyr:：filter（）
@Phil谢谢，我知道这些函数，我真的很喜欢dplyr，论坛上的讨论回答了部分问题，但我的问题是如何获得给定的ID份额，而不是确切的数字，这对我来说还不清楚哦，对不起，误读了dplyr:：slice_sample（）
将为您完成此任务。例如，dplyr:：slice_sample（mtcars，prop=0.33）@Phil谢谢你，但这不是我真正想要的：在这里，我将获得数据库的33%，也就是说，我只获得3个观察值。我希望上面例子中33%的公司出现在我的样本中（见上面的yzar_结果2）。有没有从样品中提炼出这样的东西？
year_results2<-data.frame(Year=c(2006,2006,2007,2007,2008),
Firm=c("100D","102D","100D","102D","102D"),
Sales=c(100,120,120,105,135))