R 避免合并和临时data.tables:改进我对data.table代码的草率使用

R 避免合并和临时data.tables:改进我对data.table代码的草率使用,r,merge,data.table,data-munging,R,Merge,Data.table,Data Munging,我将一项纵向研究的结果制成表格,在这项纵向研究中,参与者被要求自愿回答4项调查。每个参与者都有一个独特的PartID。每个参与者都被分配一个SectionID(字母)。尝试并完成的调查由StatusID=“Complete”指示。已尝试但未完成的调查由StatusID=“未完成”表示。未尝试调查的参与者将没有记录,但在结果表中该调查将计为“0” 输入数据示例: PartID SectionID Status SurveyID 1: 100 A Comp

我将一项纵向研究的结果制成表格,在这项纵向研究中,参与者被要求自愿回答4项调查。每个参与者都有一个独特的PartID。每个参与者都被分配一个SectionID(字母)。尝试并完成的调查由StatusID=“Complete”指示。已尝试但未完成的调查由StatusID=“未完成”表示。未尝试调查的参与者将没有记录,但在结果表中该调查将计为“0”

输入数据示例:

    PartID SectionID     Status SurveyID
 1:    100         A   Complete        1
 2:    100         A   Complete        2
 3:    100         A   Complete        3
 4:    100         A   Complete        4
 5:    101         B Incomplete        1
 6:    101         B   Complete        2
 7:    101         B   Complete        3
 8:    101         B   Complete        4
 9:    102         A Incomplete        1
10:    103         B Incomplete        4
11:    104         B Incomplete        2
12:    105         A   Complete        1
13:    105         A   Complete        1
14:    105         A   Complete        3
下面的代码可以工作,但它非常草率。我假设有一种更干净更优雅的方法来使用data.table来完成这个数据搜索?特别是,我希望避免使用临时变量,以及需要合并两个data.table

library(data.table)
DT <- fread ("PartID,SectionID,Status,SurveyID
100,A,Complete,1
100,A,Complete,2
100,A,Complete,3
100,A,Complete,4
101,B,Incomplete,1
101,B,Complete,2
101,B,Complete,3
101,B,Complete,4
102,A,Incomplete,1
103,B,Incomplete,4
104,B,Incomplete,2
105,A,Complete,1
105,A,Complete,1
105,A,Complete,3\n")

setkey(DT, PartID)

DT2<-DT
setkey(DT2,PartID, SectionID)
DT2<-DT2[Status=="Complete",.(c1=sum(SurveyID==1),c2=sum(SurveyID==2),c3=sum(SurveyID==3), c4=sum(SurveyID==4)), by=.(PartID,SectionID)]
DT3<-DT
setkey(DT3,PartID, SectionID)
DT3<-DT3[Status=="Incomplete",.(i1=sum(SurveyID==1),i2=sum(SurveyID==2),i3=sum(SurveyID==3), i4=sum(SurveyID==4)), by=.(PartID,SectionID)]
DT4<-merge(DT2,DT3, all=TRUE )
DT4[is.na(DT4)] <- 0
DT4

您可以使用
dcast

library(data.table)#v1.9.5+
dcast(DT[, N :=.N,list(PartID, SectionID, SurveyID)][,
        Status1:= paste0(tolower(substr(Status,1,1)), SurveyID)], 
        PartID+SectionID~Status1, value.var='N', length)
#   PartID SectionID c1 c2 c3 c4 i1 i2 i4
#1:    100         A  1  1  1  1  0  0  0
#2:    101         B  0  1  1  1  1  0  0
#3:    102         A  0  0  0  0  1  0  0
#4:    103         B  0  0  0  0  0  0  1
#5:    104         B  0  0  0  0  0  1  0
#6:    105         A  2  0  1  0  0  0  0
如果您需要
i3

DT1 <- DT[, N :=.N,list(PartID, SectionID, SurveyID)][,
    Status1:= paste0(tolower(substr(Status,1,1)), SurveyID)]
DT2 <- data.table(Status1=paste0(rep(c('c', 'i'),each=4), 1:4))
 na.omit(dcast(setkey(DT1, Status1)[DT2], 
      PartID+SectionID~Status1, value.var='N', length))
 #   PartID SectionID c1 c2 c3 c4 i1 i2 i3 i4
 #1:    100         A  1  1  1  1  0  0  0  0
 #2:    101         B  0  1  1  1  1  0  0  0
 #3:    102         A  0  0  0  0  1  0  0  0
 #4:    103         B  0  0  0  0  0  0  0  1
 #5:    104         B  0  0  0  0  0  1  0  0
 #6:    105         A  2  0  1  0  0  0  0  0

DT1另一个不会改变
DT
表的解决方案是:

dt2 <- DT[,.(.N), by=.(PartID,SectionID, SurveyID, Status)]
dcast.data.table(dt2,PartID + SectionID ~ Status + SurveyID, value.var='N', sum)

akrun的解决方案还展示了如何根据需要重命名列。

太棒了!谢谢你。我不知道dcast(我在使用data.table方面还是比较新的)。好的,谢谢。我会的。另外,你能解释一下N:=.N和简单的.N(在j中)之间的显著性/差异吗?一个结果是包含状态列。。。我不知道为什么。谢谢如果执行
.N
,您将只获得
分组
变量和
.N
列的输出,因此
状态
列将被忽略。这里,我分配了一个新列(
N:=.N
),这样它就可以用一个额外的列更改原始数据集。另一个答案包括分组变量中的
状态
,但我猜输出与您预期的有差异。谢谢。我仍在熟悉data.table特性,因此这是一个很有用的示例。
dcast.data.table
不再是必需的,只是
dcast
——至少在1.9.5中是这样
dt2 <- DT[,.(.N), by=.(PartID,SectionID, SurveyID, Status)]
dcast.data.table(dt2,PartID + SectionID ~ Status + SurveyID, value.var='N', sum)
   PartID SectionID Complete_1 Complete_2 Complete_3 Complete_4 Incomplete_1 Incomplete_2 Incomplete_4
1:    100         A          1          1          1          1            0            0            0
2:    101         B          0          1          1          1            1            0            0
3:    102         A          0          0          0          0            1            0            0
4:    103         B          0          0          0          0            0            0            1
5:    104         B          0          0          0          0            0            1            0
6:    105         A          2          0          1          0            0            0            0