在R中创建2x2表格,单元格的值是第三个变量,而不是计数

在R中创建2x2表格,单元格的值是第三个变量,而不是计数,r,R,我想从更大的数据集在R中创建一个表。该表将是2x2,但是每个单元格中的值将是数据集中已有的第三个变量的值。具体地说,我是在看每年一类药物的处方数量。所以,表格的一边是药物类别(A或B),另一边是年份(2014-2018),每个单元格代表处方数量 在数据集中,每一行包含给定年份中给定药物的统计信息。每行不是一个单独的处方/患者。有一列是处方的数量。每个所有的汇总函数都给了我计数,这不是我想要的 最后,我想通过卡方检验比较每年每种药物类别的患者比例。补充一些数据: set.seed(42) Diur

我想从更大的数据集在R中创建一个表。该表将是2x2,但是每个单元格中的值将是数据集中已有的第三个变量的值。具体地说,我是在看每年一类药物的处方数量。所以,表格的一边是药物类别(A或B),另一边是年份(2014-2018),每个单元格代表处方数量

在数据集中,每一行包含给定年份中给定药物的统计信息。每行不是一个单独的处方/患者。有一列是处方的数量。每个所有的汇总函数都给了我计数,这不是我想要的

最后,我想通过卡方检验比较每年每种药物类别的患者比例。

补充一些数据:

set.seed(42)
Diuretic <- sample(c("yes", "no"), 100, replace=TRUE)
Year <- sample(c(2014, 2015, 2016), 100, replace=TRUE)
Beneficiaries <- round(rnorm(100, 35, 5))
dta <- data.frame(Diuretic, Year, Beneficiaries)
加总:

addmargins(dta.tbl)
#         Year
# Diuretic 2014 2015 2016  Sum
#      no   741  888  295 1924
#      yes  448  649  429 1526
#      Sum 1189 1537  724 3450

如果没有样本数据和所需的输出,就很难做到泛泛而谈之外的任何事情。我不能提供任何关于数字的具体信息,但有一个代表性的例子:在更大的数据集中,一列是分类的。利尿剂:“是”和“否”取决于药物是否利尿剂。另一列是另一个“int”变量,年份:2014年、2015年、2016年、2017年和2018年。第三个是医疗补助受益人,根据当年/类别的人数计算。所需表格:#每年每类受益人(和%)(利尿剂“否”和“是”)。我将使用此表进行卡方检验,以测试年份之间的比例。请阅读
xtabs()
的手册页。它采用的公式形式为
Freq~Rows+Cols
chisq.test
函数将接受
xtabs
的输出。
addmargins(dta.tbl)
#         Year
# Diuretic 2014 2015 2016  Sum
#      no   741  888  295 1924
#      yes  448  649  429 1526
#      Sum 1189 1537  724 3450