R 在data.table中添加行,但在某些列具有相同值时不添加行
我有一个data.tableR 在data.table中添加行,但在某些列具有相同值时不添加行,r,data.table,aggregate,reshape,reshape2,R,Data.table,Aggregate,Reshape,Reshape2,我有一个data.tabledat,有4列,比如(col1,col2,col3,col4) 输入数据: structure(list(col1 = c(5.1, 5.1, 4.7, 4.6, 5, 5.1, 5.1, 4.7, 4.6, 5), col2 = c(3.5, 3.5, 3.2, 3.1, 3.6, 3.5, 3.5, 3.2, 3.1, 3.6), col3 = c(1.4, 1.4, 1.3, 1.5, 1.4, 3.4, 3.4, 1.3, 1.5, 1.4 ), col4
dat
,有4列,比如(col1
,col2
,col3
,col4
)
输入数据:
structure(list(col1 = c(5.1, 5.1, 4.7, 4.6, 5, 5.1, 5.1, 4.7,
4.6, 5), col2 = c(3.5, 3.5, 3.2, 3.1, 3.6, 3.5, 3.5, 3.2, 3.1,
3.6), col3 = c(1.4, 1.4, 1.3, 1.5, 1.4, 3.4, 3.4, 1.3, 1.5, 1.4
), col4 = structure(c(1L, 1L, 1L, 1L, 1L, 4L, 4L, 4L, 4L, 4L), .Label = c("setosa",
"versicolor", "virginica", "eer"), class = "factor")), .Names = c("col1",
"col2", "col3", "col4"), row.names = c(NA, -10L), class = c("data.table",
"data.frame"))
r
col1 col2 col3 col4
1: 5.1 3.5 1.4 setosa
2: 5.1 3.5 1.4 setosa
3: 4.7 3.2 1.3 setosa
4: 4.6 3.1 1.5 setosa
5: 5.0 3.6 1.4 setosa
6: 5.1 3.5 3.4 eer
7: 5.1 3.5 3.4 eer
8: 4.7 3.2 1.3 eer
9: 4.6 3.1 1.5 eer
10: 5.0 3.6 1.4 eer
对于col4
dat[ , r_new:= sum(col3, na.rm = T), .(col4)] #syntax 1
因此,上面的sytnax正在创建一个新列r_new
,其中的值是通过将col3
的值相加得到的,其中col4
是相同的。因此,col4
的每个唯一值在r\u new
列中将有一个不唯一的值
我现在想做的是与上面相同,但不包括col1
和col2
采用相同值的行(如下所示)
当对行执行sum
函数时,它将不包括col1
和col2
取相同值的行
如何以与1相同的语法包含此条件
预期产出:
col1 col2 col3 col4 r_new
1: 5.1 3.5 1.4 setosa 5.6
2: 5.1 3.5 1.4 setosa 5.6
3: 4.7 3.2 1.3 setosa 5.6
4: 4.6 3.1 1.5 setosa 5.6
5: 5.0 3.6 1.4 setosa 5.6
6: 5.1 3.5 3.4 eer 7.6
7: 5.1 3.5 3.4 eer 7.6
8: 4.7 3.2 1.3 eer 7.6
9: 4.6 3.1 1.5 eer 7.6
10: 5.0 3.6 1.4 eer 7.6
正如您在预期输出中所看到的,对于setosa
而言,第1行和第2行对于col1
和col2
具有相同的值,对于err
而言,第6行和第7行对于col1
和col2
具有相同的值,因此我们没有添加这些行(我们只考虑了一次)。不要担心col3
(如果col1
和col2
采用相同的值,它将采用相同的值
编辑:第二个dput:
structure(list(col1 = c(5.1, 5.1, 4.7, 4.6, 5, 5.1, 5.1, 4.7,
4.6, 5.1), col2 = c(3.5, 3.5, 3.2, 3.1, 3.6, 3.5, 3.5, 3.2, 3.1,
3.4), col3 = c(1.4, 1.4, 1.3, 1.5, 1.4, 3.4, 3.4, 1.3, 1.5, 3.4
), col4 = c("A", "A", "A", "A", "A", "B", "B", "B", "B", "B"),
count = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1), r_new = c(5.6, 5.6,
5.6, 5.6, 5.6, 9.6, 9.6, 9.6, 9.6, 9.6)), .Names = c("col1",
"col2", "col3", "col4", "count", "r_new"), row.names = c(NA,
-10L), class = c("data.table", "data.frame"))
col1 col2 col3 col4 count r_new
1: 5.1 3.5 1.4 A 1 5.6
2: 5.1 3.5 1.4 A 1 5.6
3: 4.7 3.2 1.3 A 1 5.6
4: 4.6 3.1 1.5 A 1 5.6
5: 5.0 3.6 1.4 A 1 5.6
6: 5.1 3.5 3.4 B 1 9.6
7: 5.1 3.5 3.4 B 1 9.6
8: 4.7 3.2 1.3 B 1 9.6
9: 4.6 3.1 1.5 B 1 9.6
10: 5.1 3.4 3.4 B 1 9.6
编辑2:第三个dput
col1 col2 col3 col4 count r_new
1: 5.1 3.5 1.4 A 1 5.6
2: 5.1 3.5 1.4 A 1 5.6
3: 4.7 3.2 1.3 A 1 5.6
4: 4.6 3.1 1.5 A 1 5.6
5: 5.0 3.6 1.4 A 1 5.6
6: 5.1 3.5 3.4 B 1 6.2
7: 5.1 3.5 3.4 B 1 6.2
8: 4.7 3.2 1.3 B 1 6.2
9: 4.6 3.1 1.5 B 1 6.2
10: 5.1 3.5 3.4 B 1 6.2
structure(list(col1 = c(5.1, 5.1, 4.7, 4.6, 5, 5.1, 5.1, 4.7,
4.6, 5.1), col2 = c(3.5, 3.5, 3.2, 3.1, 3.6, 3.5, 3.5, 3.2, 3.1,
3.5), col3 = c(1.4, 1.4, 1.3, 1.5, 1.4, 3.4, 3.4, 1.3, 1.5, 3.4
), col4 = c("A", "A", "A", "A", "A", "B", "B", "B", "B", "B"),
count = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1), r_new = c(5.6, 5.6,
5.6, 5.6, 5.6, 6.2, 6.2, 6.2, 6.2, 6.2)), .Names = c("col1",
"col2", "col3", "col4", "count", "r_new"), row.names = c(NA,
-10L), class = c("data.table", "data.frame"))
我们可以使用
?data.table::duplicated
将col3
子集到j
内部
dat[, r_new := sum(col3[!duplicated(.SD, by = c("col1","col2"))], na.rm = T), by = col4]
> dat
# col1 col2 col3 col4 count r_new
# 1: 5.1 3.5 1.4 A 1 5.6
# 2: 5.1 3.5 1.4 A 1 5.6
# 3: 4.7 3.2 1.3 A 1 5.6
# 4: 4.6 3.1 1.5 A 1 5.6
# 5: 5.0 3.6 1.4 A 1 5.6
# 6: 5.1 3.5 3.4 B 1 6.2
# 7: 5.1 3.5 3.4 B 1 6.2
# 8: 4.7 3.2 1.3 B 1 6.2
# 9: 4.6 3.1 1.5 B 1 6.2
#10: 5.1 3.5 3.4 B 1 6.2
接受mtoto的答案,因为这更容易阅读,但这里有一个替代方案
DT[, r_new:=unique(.SD,by=c("col1","col2"))[,sum(col3, na.rm=TRUE)], by=col4]
你不能预先过滤吗?你能显示
dat
和预期输出吗please@mtoto我添加了示例。@MattDowle是的,应该只有6.2。9.6答案由mtoto的答案给出。为了向他展示,我复制了结果。让我编辑它并写出正确的答案。否。第10行的col2
不同。因此,第6行和第10行are 2 col1和col2的不同组合。只有那些行需要考虑col1和col2同时相同的情况。谢谢。我还有一个疑问,但我已将其作为另一个问题发布。你能回答这个问题吗?是的。我正在试验,发现了一个问题。请查看第二个dput,你的解决方案不起作用g、 请让我知道,为什么?在第二个示例中,对于valueB
,答案应该是9.6而不是6.2。为什么会发生这种情况?事实并非如此。请在新的dput上应用更新的解决方案(添加在问题中).这次的答案应该是6。2@MattDowle好奇你们的解决方案是什么。你们是数据表的忠实粉丝,你们的工作真是太棒了!
DT[, r_new:=unique(.SD,by=c("col1","col2"))[,sum(col3, na.rm=TRUE)], by=col4]