R 如何从我从一个大数据集中采集的100个样本中找出每个样本的平均值_R

R 如何从我从一个大数据集中采集的100个样本中找出每个样本的平均值

R 如何从我从一个大数据集中采集的100个样本中找出每个样本的平均值,r,R,第一个问题。例如，如果我的数据有x、y、z列，并且我希望样本大小为200。我该怎么做？我尝试的是sample（data，200），这似乎是一个错误，我只能做sample（data$x200）。有没有一种方法可以让我同时得到200个样本，而不是用$x，$y，$z做三次我的另一个问题是，我有一个大数据集，需要采集100个大小为200的样本。我所做的是复制（100，样本（数据$x200））。如何找到每个单独样本的平均值谢谢你们，我真的很感谢你们的帮助怎么样 sample(unlist(data

第一个问题。例如，如果我的数据有x、y、z列，并且我希望样本大小为200。我该怎么做？我尝试的是

sample（data，200）

，这似乎是一个错误，我只能做

sample（data$x200）

。有没有一种方法可以让我同时得到200个样本，而不是用$x，$y，$z做三次

我的另一个问题是，我有一个大数据集，需要采集100个大小为200的样本。我所做的是

复制（100，样本（数据$x200））

。如何找到每个单独样本的平均值

谢谢你们，我真的很感谢你们的帮助

怎么样

 sample(unlist(data), 200)

这里有一种方法：

#Fake data
x <- data.frame(x = rnorm(1000), y = runif(1000), z = sample(1000))
#Create an index
idx <- sample(nrow(x), 200, replace = FALSE)
#calculate the column means
colMeans(x[idx, ])
#create a list of indices and make a list
idx2 <- replicate(100, sample(nrow(x), 200, replace = FALSE), simplify = FALSE)
#Iterate over the list, taking the column means...only show the top six rows
t(sapply(idx2, function(zz) colMeans(x[zz, ])))

#伪造数据
x列通常是相关的；行更常见。第二个问题。你的结果可能是最好用一个小例子向大家阐明你对问题1的具体要求。很抱歉，我没有清楚地说明问题。有类型、颜色、价格类型可以取值1、2、3种颜色取值4、5、6，价格范围从30000到70000。人口超过4万。我的第一个问题是如何创建一个大小为200的随机样本。然后是1。找出类型1和类型2的比例。平均价格。我的第二个问题是，我需要抽取100个大小为200的样本，找出这100个估计值的平均值和标准差。。。我不确定我是否足够清楚…对不起伙计们。。但我真的很感谢你的帮助！如果数据的大小小于200，这将不起作用…这也会丢失数据的原始结构，基本上会将其变成一个大向量…这与OP要求的不同我想是的，我知道它会丢失结构，但我猜我误解了问题。对不起，我不习惯回答问题。我建议样本（如矩阵（数据），200）然后…也许lappy（数据，样本，大小=200）
？最初我把它写得很好，但我想知道因子变量是否会弄乱。非常感谢！有没有办法找到色谱柱的标准偏差？除了瞄准sd之外，是否有类似“colSd”或功能与COLMAYS一样工作？可能有一个包具有colSDs功能（但不在base或stats中），那么为什么不只sapply（x，sd）
？@Ekam-BondedDust概述的可能是您最好的方法，即：sapply（x[idx，]，sd）
，或者将它们结合在一起：sappy（x[idx，]，function（zz）c（mean=mean（zz），sd=sd（zz））
@Chase非常感谢您的清晰解释！我真的很感激！