Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/68.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Rstudio提取子数据库_R - Fatal编程技术网

Rstudio提取子数据库

Rstudio提取子数据库,r,R,关于Rstudo,我有一个小问题:是否可以根据标准对大型数据库进行子集划分。我有一个大的公司数据集,每个公司(每月)有几次观察。由于数据库非常大,我只想通过对公司进行抽样(占公司总数的10%,这与总观察值的10%不同)。有可能吗 例如,在下面的小例子中,我可以随机抽取33%的公司(2家公司)在它们出现的所有年份吗 year_results<-data.frame(Year=c(2006,2006,2006,2007,2007,2007,2008,2008,2008,2008), Firm=

关于Rstudo,我有一个小问题:是否可以根据标准对大型数据库进行子集划分。我有一个大的公司数据集,每个公司(每月)有几次观察。由于数据库非常大,我只想通过对公司进行抽样(占公司总数的10%,这与总观察值的10%不同)。有可能吗

例如,在下面的小例子中,我可以随机抽取33%的公司(2家公司)在它们出现的所有年份吗

year_results<-data.frame(Year=c(2006,2006,2006,2007,2007,2007,2008,2008,2008,2008),
Firm=c("100D","102D","106D","100D","102D","103D","104D","102D","104D","105E"),
Sales=c(100,120,110,120,105,105,100,135,125,110))

year\u results查看
subset()
dplyr::filter()
@Phil谢谢,我知道这些函数,我真的很喜欢dplyr,论坛上的讨论回答了部分问题,但我的问题是如何获得给定的ID份额,而不是确切的数字,这对我来说还不清楚哦,对不起,误读了
dplyr::slice_sample()
将为您完成此任务。例如,
dplyr::slice_sample(mtcars,prop=0.33)
@Phil谢谢你,但这不是我真正想要的:在这里,我将获得数据库的33%,也就是说,我只获得3个观察值。我希望上面例子中33%的公司出现在我的样本中(见上面的yzar_结果2)。有没有从样品中提炼出这样的东西?
year_results2<-data.frame(Year=c(2006,2006,2007,2007,2008),
Firm=c("100D","102D","100D","102D","102D"),
Sales=c(100,120,120,105,135))