R 如何从我从一个大数据集中采集的100个样本中找出每个样本的平均值

R 如何从我从一个大数据集中采集的100个样本中找出每个样本的平均值,r,R,第一个问题。例如,如果我的数据有x、y、z列,并且我希望样本大小为200。我该怎么做?我尝试的是sample(data,200),这似乎是一个错误,我只能做sample(data$x200)。有没有一种方法可以让我同时得到200个样本,而不是用$x,$y,$z做三次 我的另一个问题是,我有一个大数据集,需要采集100个大小为200的样本。我所做的是复制(100,样本(数据$x200))。如何找到每个单独样本的平均值 谢谢你们,我真的很感谢你们的帮助 怎么样 sample(unlist(data

第一个问题。例如,如果我的数据有x、y、z列,并且我希望样本大小为200。我该怎么做?我尝试的是
sample(data,200)
,这似乎是一个错误,我只能做
sample(data$x200)
。有没有一种方法可以让我同时得到200个样本,而不是用$x,$y,$z做三次

我的另一个问题是,我有一个大数据集,需要采集100个大小为200的样本。我所做的是
复制(100,样本(数据$x200))
。如何找到每个单独样本的平均值

谢谢你们,我真的很感谢你们的帮助

怎么样

 sample(unlist(data), 200)
这里有一种方法:

#Fake data
x <- data.frame(x = rnorm(1000), y = runif(1000), z = sample(1000))
#Create an index
idx <- sample(nrow(x), 200, replace = FALSE)
#calculate the column means
colMeans(x[idx, ])
#create a list of indices and make a list
idx2 <- replicate(100, sample(nrow(x), 200, replace = FALSE), simplify = FALSE)
#Iterate over the list, taking the column means...only show the top six rows
t(sapply(idx2, function(zz) colMeans(x[zz, ])))
#伪造数据

x列通常是相关的;行更常见。第二个问题。你的结果可能是最好用一个小例子向大家阐明你对问题1的具体要求。很抱歉,我没有清楚地说明问题。有类型、颜色、价格类型可以取值1、2、3种颜色取值4、5、6,价格范围从30000到70000。人口超过4万。我的第一个问题是如何创建一个大小为200的随机样本。然后是1。找出类型1和类型2的比例。平均价格。我的第二个问题是,我需要抽取100个大小为200的样本,找出这100个估计值的平均值和标准差。。。我不确定我是否足够清楚…对不起伙计们。。但我真的很感谢你的帮助!如果数据的大小小于200,这将不起作用…这也会丢失数据的原始结构,基本上会将其变成一个大向量…这与OP要求的不同我想是的,我知道它会丢失结构,但我猜我误解了问题。对不起,我不习惯回答问题。我建议样本(如矩阵(数据),200)然后…也许
lappy(数据,样本,大小=200)
?最初我把它写得很好,但我想知道因子变量是否会弄乱。非常感谢!有没有办法找到色谱柱的标准偏差?除了瞄准sd之外,是否有类似“colSd”或功能与COLMAYS一样工作?可能有一个包具有colSDs功能(但不在base或stats中),那么为什么不只
sapply(x,sd)
?@Ekam-BondedDust概述的可能是您最好的方法,即:
sapply(x[idx,],sd)
,或者将它们结合在一起:
sappy(x[idx,],function(zz)c(mean=mean(zz),sd=sd(zz))
@Chase非常感谢您的清晰解释!我真的很感激!