R-计算分组数据的置信区间

R-计算分组数据的置信区间,r,R,假设您有一个名为data的数据集,如下所示: Gender Pneumonia_Incidence lower_CI upper_CI Male 38000 30000 44000 Female 34000 32000 38000 我现在想计算肺炎的总发病率,这很容易做到: sum(data$Pneumonia_Incidence) 但是,如何计算此估算的下限CI和上限CI?只对较低的CI和较高的CI值求和有效吗?还是我

假设您有一个名为
data
的数据集,如下所示:

Gender Pneumonia_Incidence lower_CI upper_CI
Male   38000               30000    44000
Female 34000               32000    38000
我现在想计算肺炎的总发病率,这很容易做到:

sum(data$Pneumonia_Incidence)

但是,如何计算此估算的下限CI和上限CI?只对
较低的CI
较高的CI
值求和有效吗?还是我需要做其他事情

如何计算此估算的下限CI和上限CI

您无法使用您提供的信息。你需要知道每个估计患病率的方差。必须知道这一点,因为有人计算了置信区间。通过这些,您可以获得总方差的汇总估计,然后计算总体置信区间

如果这对你很重要,我强烈建议你咨询一位合格的统计学家,或者至少是一本有声望的教科书。这不是简单的高中数学。可能还涉及其他问题,如取样重量。我当然不会在这里寻求统计方面的建议,甚至可能在经常提到的其他地方也不会。如果你的老板问你如何计算置信区间呢?你会说你查阅了互联网吗

将较低的\u CI值和较高的\u CI值相加是否有效

不。差异涉及样本量。考虑一下这个。想象两组,一组样本量非常大,另一组样本量非常小。与小样本组相比,大样本组的置信区间更窄。如果你只是加上两个时间间隔,你会得到一个总体时间间隔,这个时间间隔由两组平均加权,这在直觉上似乎是不正确的。这是一个有偏见的估计


。。。还是我需要做些别的


咨询统计学家。:)

“我需要做点别的吗”不,那应该行。但是考虑到没有一个区间,但无限多。大多数情况下,我们使用95%的conf.int。最好明确说明我们正在查看的分位数。@dario,这不对。如果你收集了一个大小为n的样本,m为阳性,那么比率估计为m/n,95%的置信区间为m+/-1.96*sqrt(((m/n)*(1-m/n))/n)。@dario例如,如果我对100人进行了抽样,发现10个阳性,那么每100000人的估计发病率为10000(95%CI 5163-18035)。但如果我抽取200个样本,发现20个阳性,那么每100000人的估计发病率是10000(95%可信区间6366-15230)。如果这里的结果是每100000名男性的发病率和每100000名女性的发病率,简单地加上结果就会得出每200000人的发病率,置信区间是错误的。@dario因为有一个置信区间,我假设发病率是基于一个人群的样本,乘以得出每100000或每百万的发病率。如果想把这些加起来,得到每20万(或每200万)的利率,那将是非常奇怪的。希望OP能澄清他们到底想做什么,而不是我们两个都被一个不完整的例子引入歧途!我们都只是想帮助…@艾伦·卡梅伦。谢谢你的耐心;)我同意,示例不完整,我对CI的解释/使用与我通常使用的CI不同。@J.Doe的评论可能让我误入歧途:
这很容易做到:sum(数据$Pneumonia\u发病率)
。。。。