R 如何检查事件序列是否有序?
我有一个数据表,其中每列表示一个事件:如果事件发生了,则有一个日期值,如果没有发生,则为空。现在,所有事件都是可选的,但是如果它们发生,它们必须遵循一个顺序(A,然后B,C…) 在研究数据时,我发现至少存在两个数据质量问题:例如,事件a为空,事件B有一个日期:或者事件a的日期晚于事件B。我必须检查1000多行中的10列,因此我想知道是否有一种方法可以使用R自动执行此操作(我只需要标记序列是否正确,然后手动检查错误的情况)…我唯一能想到的是执行大量似乎根本不合适的ifelse嵌套语句 有人知道更好的功能/方法吗?提前感谢,这里有一些虚拟数据:(以下事件可以有相同的日期) 因此,在本例中,应标记第2、10和14行 提前感谢您可以使用R 如何检查事件序列是否有序?,r,date-comparison,R,Date Comparison,我有一个数据表,其中每列表示一个事件:如果事件发生了,则有一个日期值,如果没有发生,则为空。现在,所有事件都是可选的,但是如果它们发生,它们必须遵循一个顺序(A,然后B,C…) 在研究数据时,我发现至少存在两个数据质量问题:例如,事件a为空,事件B有一个日期:或者事件a的日期晚于事件B。我必须检查1000多行中的10列,因此我想知道是否有一种方法可以使用R自动执行此操作(我只需要标记序列是否正确,然后手动检查错误的情况)…我唯一能想到的是执行大量似乎根本不合适的ifelse嵌套语句 有人知道更好
apply()
依次检查每一行,并且(在其中)sapply()
检查行中的每个元素
假设您的数据框名为test\u data
,我们将添加一个新列,显示根据您指定的规则,每行中的日期列是否有意义
test_data$valid <- apply(test_data[2:ncol(test_data)], 1, function (x) {
# sapply iterates over each element in the row after the first one, checking
# all the previous elements
valid <- sapply(2:length(x), function (y) {
ifelse(
!is.na(x[y]) # we can only check an element if it is a date
& (
# if any of the elements before the current one are NA, this is a
# problem
sum(is.na(x[1:y-1]) > 0) |
# if any of the dates before the current one are greater than the
# current one, this is also a problem
max(x[1:y-1]) > x[y]
),
FALSE, TRUE)
})
# if any of the elements in `valid` are false, this says there is a problem in
# the data (note `valid` is shorter than `x` by one element because the first
# element isn't checked against itself)
ifelse(sum(valid) == length(x) - 1, TRUE, FALSE)
})
test_data[test_data$valid == FALSE,]
test_数据$valid x[y]
),
(假,真)
})
#如果'valid'中的任何一个元素为false,则表示
#数据(注意'valid'比'x'短一个元素,因为第一个
#元素未对照自身进行检查)
ifelse(总和(有效)=长度(x)-1,真,假)
})
测试数据[测试数据$valid==FALSE,]
您可以使用apply()
依次检查每一行,并(在其中)sapply()
检查行中的每个元素
假设您的数据框名为test\u data
,我们将添加一个新列,显示根据您指定的规则,每行中的日期列是否有意义
test_data$valid <- apply(test_data[2:ncol(test_data)], 1, function (x) {
# sapply iterates over each element in the row after the first one, checking
# all the previous elements
valid <- sapply(2:length(x), function (y) {
ifelse(
!is.na(x[y]) # we can only check an element if it is a date
& (
# if any of the elements before the current one are NA, this is a
# problem
sum(is.na(x[1:y-1]) > 0) |
# if any of the dates before the current one are greater than the
# current one, this is also a problem
max(x[1:y-1]) > x[y]
),
FALSE, TRUE)
})
# if any of the elements in `valid` are false, this says there is a problem in
# the data (note `valid` is shorter than `x` by one element because the first
# element isn't checked against itself)
ifelse(sum(valid) == length(x) - 1, TRUE, FALSE)
})
test_data[test_data$valid == FALSE,]
test_数据$valid x[y]
),
(假,真)
})
#如果'valid'中的任何一个元素为false,则表示
#数据(注意'valid'比'x'短一个元素,因为第一个
#元素未对照自身进行检查)
ifelse(总和(有效)=长度(x)-1,真,假)
})
测试数据[测试数据$valid==FALSE,]
我会在数据表中执行此操作,但我确信dplyr
版本类似:
library(data.table)
setDT(DF) # <- convert to data.table
DF[DF[ , melt(.SD, id.vars = 'ID')
][ , {
non_na_idx = which(!is.na(value))
any(diff(value) < 0, na.rm = TRUE) ||
(length(non_na_idx) &&
max(non_na_idx) != length(non_na_idx))
}, keyby = ID],
flag := i.V1, on = 'ID'][]
# ID A B C D E flag
# 1: 1 2018-01-01 2018-02-05 <NA> <NA> <NA> FALSE
# 2: 2 <NA> 2018-07-04 <NA> <NA> <NA> TRUE
# 3: 3 <NA> <NA> <NA> <NA> <NA> FALSE
# 4: 4 2017-03-01 2017-04-03 2017-04-04 2017-08-29 2018-03-16 FALSE
# 5: 5 2017-11-28 2018-01-31 <NA> <NA> <NA> FALSE
# 6: 6 2017-02-07 <NA> <NA> <NA> <NA> FALSE
# 7: 7 2018-04-25 2018-04-30 <NA> <NA> <NA> FALSE
# 8: 8 2018-02-05 2018-03-16 <NA> <NA> <NA> FALSE
# 9: 9 2018-03-19 2018-03-22 2018-03-24 2018-04-04 <NA> FALSE
# 10: 10 2017-04-03 2017-03-01 <NA> <NA> <NA> TRUE
# 11: 11 2018-03-16 <NA> <NA> <NA> <NA> FALSE
# 12: 12 2018-03-16 2018-05-30 2018-06-05 <NA> <NA> FALSE
# 13: 13 2018-02-05 <NA> <NA> <NA> <NA> FALSE
# 14: 14 2018-03-22 <NA> 2018-06-05 <NA> <NA> TRUE
# 15: 15 2018-03-22 <NA> <NA> <NA> <NA> FALSE
# 16: 16 2018-03-22 <NA> <NA> <NA> <NA> FALSE
# 17: 17 2017-08-17 2017-08-29 <NA> <NA> <NA> FALSE
# 18: 18 2018-06-05 2018-06-05 <NA> <NA> <NA> FALSE
# 19: 19 2018-03-22 <NA> <NA> <NA> <NA> FALSE
# 20: 20 2018-06-05 2018-07-04 2018-07-04 <NA> <NA> FALSE
你需要两个条件--
在任何一行中,较高列的日期(按字母排序)都不应在较低列的日期之前。在数据的长形式中,这意味着每个ID
中的连续差异应该是单调递增的,或者等价地,diff(value)
始终是非负的。因此,如果有任何差异(diff(value)<0,na.rm=TRUE)
,则我们的标志为TRUE
,这意味着对于该ID
,至少有一个这样的差异为负值:
DF[ , melt(.SD, id.vars = 'ID')
][ , any(diff(na.omit(value)) < 0, na.rm = TRUE),
keyby = ID]
# ID V1
# 1: 1 FALSE
# < omitted; all FALSE >
# 9: 9 FALSE
# 10: 10 TRUE # <- column B comes before column A
# 11: 11 FALSE
# < omitted; all FALSE >
# 20: 20 FALSE
结合这两个条件可以获得所有三行的标志
最后,我们将新创建的标志连接回原始表,并创建一个名为flag
的列。这可以分为两个步骤——创建带有标志列的表,然后连接:
DF_with_flag =
DF[ , melt(.SD, id.vars = 'ID')
][ , {
non_na_idx = which(!is.na(value))
any(diff(na.omit(value)) < 0, na.rm = TRUE) ||
(length(non_na_idx) &&
max(non_na_idx) != length(non_na_idx))
}, keyby = ID]
DF[DF_with_flag, flag := i.V1, on = 'ID']
DF_带_标志=
DF[,melt(.SD,id.vars='id')
][ , {
non_na_idx=哪个(!是.na(值))
any(diff(na.omit(value))<0,na.rm=TRUE)|
(长度(非na_idx)和
最大值(非na_idx)!=长度(非na_idx))
},keyby=ID]
DF[DF_with_flag,flag:=i.V1,on='ID']
我会在数据表中执行此操作,但我确信dplyr
版本类似:
library(data.table)
setDT(DF) # <- convert to data.table
DF[DF[ , melt(.SD, id.vars = 'ID')
][ , {
non_na_idx = which(!is.na(value))
any(diff(value) < 0, na.rm = TRUE) ||
(length(non_na_idx) &&
max(non_na_idx) != length(non_na_idx))
}, keyby = ID],
flag := i.V1, on = 'ID'][]
# ID A B C D E flag
# 1: 1 2018-01-01 2018-02-05 <NA> <NA> <NA> FALSE
# 2: 2 <NA> 2018-07-04 <NA> <NA> <NA> TRUE
# 3: 3 <NA> <NA> <NA> <NA> <NA> FALSE
# 4: 4 2017-03-01 2017-04-03 2017-04-04 2017-08-29 2018-03-16 FALSE
# 5: 5 2017-11-28 2018-01-31 <NA> <NA> <NA> FALSE
# 6: 6 2017-02-07 <NA> <NA> <NA> <NA> FALSE
# 7: 7 2018-04-25 2018-04-30 <NA> <NA> <NA> FALSE
# 8: 8 2018-02-05 2018-03-16 <NA> <NA> <NA> FALSE
# 9: 9 2018-03-19 2018-03-22 2018-03-24 2018-04-04 <NA> FALSE
# 10: 10 2017-04-03 2017-03-01 <NA> <NA> <NA> TRUE
# 11: 11 2018-03-16 <NA> <NA> <NA> <NA> FALSE
# 12: 12 2018-03-16 2018-05-30 2018-06-05 <NA> <NA> FALSE
# 13: 13 2018-02-05 <NA> <NA> <NA> <NA> FALSE
# 14: 14 2018-03-22 <NA> 2018-06-05 <NA> <NA> TRUE
# 15: 15 2018-03-22 <NA> <NA> <NA> <NA> FALSE
# 16: 16 2018-03-22 <NA> <NA> <NA> <NA> FALSE
# 17: 17 2017-08-17 2017-08-29 <NA> <NA> <NA> FALSE
# 18: 18 2018-06-05 2018-06-05 <NA> <NA> <NA> FALSE
# 19: 19 2018-03-22 <NA> <NA> <NA> <NA> FALSE
# 20: 20 2018-06-05 2018-07-04 2018-07-04 <NA> <NA> FALSE
你需要两个条件--
在任何一行中,较高列的日期(按字母排序)都不应在较低列的日期之前。在数据的长形式中,这意味着每个ID
中的连续差异应该是单调递增的,或者等价地,diff(value)
始终是非负的。因此,如果有任何差异(diff(value)<0,na.rm=TRUE)
,则我们的标志为TRUE
,这意味着对于该ID
,至少有一个这样的差异为负值:
DF[ , melt(.SD, id.vars = 'ID')
][ , any(diff(na.omit(value)) < 0, na.rm = TRUE),
keyby = ID]
# ID V1
# 1: 1 FALSE
# < omitted; all FALSE >
# 9: 9 FALSE
# 10: 10 TRUE # <- column B comes before column A
# 11: 11 FALSE
# < omitted; all FALSE >
# 20: 20 FALSE
结合这两个条件可以获得所有三行的标志
最后,我们将新创建的标志连接回原始表,并创建一个名为flag
的列。这可以分为两个步骤——创建带有标志列的表,然后连接:
DF_with_flag =
DF[ , melt(.SD, id.vars = 'ID')
][ , {
non_na_idx = which(!is.na(value))
any(diff(na.omit(value)) < 0, na.rm = TRUE) ||
(length(non_na_idx) &&
max(non_na_idx) != length(non_na_idx))
}, keyby = ID]
DF[DF_with_flag, flag := i.V1, on = 'ID']
DF_带_标志=
DF[,melt(.SD,id.vars='id')
][ , {
non_na_idx=哪个(!是.na(值))
any(diff(na.omit(value))<0,na.rm=TRUE)|
(长度(非na_idx)和
最大值(非na_idx)!=长度(非na_idx))
},keyby=ID]
DF[DF_with_flag,flag:=i.V1,on='ID']
第14行的问题是存在“间隙”?是的,没错。顺序必须遵循顺序,连续步骤之间不得有间隙。下面的步骤的日期不能早于上一步。第14行的问题是存在“间隙”?是的,没错。顺序必须遵循顺序,连续步骤之间不得有间隙。以下步骤的日期不能早于上一步。谢谢!我喜欢data.table的使用,您的评论有助于理解代码,非常感谢!谢谢我喜欢data.table的使用,您的评论有助于理解代码,非常感谢!谢谢我检查了这段代码,它也工作得很好。非常直观!谢谢我检查了这段代码,它也工作得很好。非常直观!