R 按日期和id筛选重复项
我有一个如下所示的数据框R 按日期和id筛选重复项,r,dataframe,filter,duplicates,R,Dataframe,Filter,Duplicates,我有一个如下所示的数据框 Id Date1 Date2 QuestionId AnswerValue 10 2000-01-14 2000-01-14 1339 3 10 2000-01-14 1999-12-09 1339 2 10 2000-01-14 1999-11-23 1461 1 10 2000-01-14 2000-01-0
Id Date1 Date2 QuestionId AnswerValue
10 2000-01-14 2000-01-14 1339 3
10 2000-01-14 1999-12-09 1339 2
10 2000-01-14 1999-11-23 1461 1
10 2000-01-14 2000-01-03 1461 18
10 2000-01-14 1999-11-16 274 0
57 2014-02-01 2014-12-10 278 0
57 2014-02-01 2012-11-07 280 0
57 2014-02-01 2012-09-30 280 0
57 2014-02-01 2012-01-15 261 0
我的目标是根据以下标准保留观察结果
1) 保留该ID和QuestionID组合的行,其中QuestionID是唯一的,并且该ID+QuestionID组合没有其他重复的QuestionID。示例:保留最后一行
Id Date1 Date2 QuestionId AnswerValue
57 2014-02-01 2012-01-15 261 0
2) 如果每个QuestionID+ID组合都有重复的QuestionID,则仅保留带有QuestionID的行,其中Date2列值最接近Date1列值,例如:ID 10有两个QuestionID 1339。根据该标准,仅应保留第1行,因为问题ID 1339的日期2值2000-01-14最接近日期1值2000-01-14,而第二行的日期2值为1999-12-09,而日期1值为2000-01-14
Id Date1 Date2 QuestionId AnswerValue
10 2000-01-14 2000-01-14 1339 3
3) 删除Date2值大于Date1的任何行,例如,应删除第6行
Id Date1 Date2 QuestionId AnswerValue
57 2014-02-01 2014-12-10 278 0
最终的数据集如下所示
Id Date1 Date2 QuestionId AnswerValue
10 2000-01-14 2000-01-14 1339 3
10 2000-01-14 2000-01-03 1461 18
10 2000-01-14 1999-11-16 274 0
57 2014-02-01 2014-12-10 278 0
57 2014-02-01 2012-11-07 280 0
57 2014-02-01 2012-01-15 261 0
非常感谢为实现这一目标提供的任何帮助。提前感谢。使用
数据。表
,首先筛选准则3(Date2这里有一个使用dplyr
的想法
library(dplyr)
df %>%
group_by(Id, QuestionId) %>%
slice(which.min(difftime(Date1, Date2))) %>%
filter(Date2 <= Date1)
#Source: local data frame [5 x 5]
#Groups: Id, QuestionId [5]
# Id Date1 Date2 QuestionId AnswerValue
# <int> <date> <date> <int> <int>
#1 10 2000-01-14 1999-11-16 274 0
#2 10 2000-01-14 2000-01-14 1339 3
#3 10 2000-01-14 2000-01-03 1461 18
#4 57 2014-02-01 2012-01-15 261 0
#5 57 2014-02-01 2012-11-07 280 0
库(dplyr)
df%>%
分组依据(Id,问题Id)%>%
切片(which.min(difftime(Date1,Date2)))%>%
筛选(日期2)你的第一个标准很难遵循。第五行和第六行不也应该保留吗?你只是想要一个唯一的Id+QuestionId组合吗?在Id+QuestionId组合中,如何才能有一个唯一的QuestionId和另一个具有相同Id+QuestionId组合的观察?
Id Date1 Date2 QuestionId AnswerValue
57 2014-02-01 2014-12-10 278 0
library(dplyr)
df %>%
group_by(Id, QuestionId) %>%
slice(which.min(difftime(Date1, Date2))) %>%
filter(Date2 <= Date1)
#Source: local data frame [5 x 5]
#Groups: Id, QuestionId [5]
# Id Date1 Date2 QuestionId AnswerValue
# <int> <date> <date> <int> <int>
#1 10 2000-01-14 1999-11-16 274 0
#2 10 2000-01-14 2000-01-14 1339 3
#3 10 2000-01-14 2000-01-03 1461 18
#4 57 2014-02-01 2012-01-15 261 0
#5 57 2014-02-01 2012-11-07 280 0