检查变量在R中是否是时不变的
我试图寻找我的问题的答案,但我找到了Stata的正确答案(我使用的是R) 我正在使用一项全国性调查来研究哪些变量影响补充养老金的投资(在我的国家是自愿的) 调查每两年进行一次,有些人接受了不止一次的采访。我对df进行了过滤,以便只有个人多次发出检查变量在R中是否是时不变的,r,variables,time,constants,R,Variables,Time,Constants,我试图寻找我的问题的答案,但我找到了Stata的正确答案(我使用的是R) 我正在使用一项全国性调查来研究哪些变量影响补充养老金的投资(在我的国家是自愿的) 调查每两年进行一次,有些人接受了不止一次的采访。我对df进行了过滤,以便只有个人多次发出filter命令。这是已过滤的原始调查的一个示例: year id y.b sex income pens 2002 1 1950 F 100000 0 2002 2 1943 M 5
filter
命令。这是已过滤的原始调查的一个示例:
year id y.b sex income pens
2002 1 1950 F 100000 0
2002 2 1943 M 55000 1
2004 1 1950 F 88000 1
2004 2 1943 M 66000 1
2006 3 1966 M 12000 1
2008 3 1966 M 24000 1
2008 4 1972 F 33000 0
2010 4 1972 F 35000 0
其中id为个人,y.b为出生年份,pens为虚拟值,如果个人投资于补充养老金形式,则取1。
我想运行FE回归,所以我加载plm
包,然后像这样设置df:
df.p <- plm.data(df, c("id", "year")
df$x <- ifelse(df$id=="1" & df$sex=="F",1,0)
基本思想应该是这样的:
df.p <- plm.data(df, c("id", "year")
df$x <- ifelse(df$id=="1" & df$sex=="F",1,0)
df$x我想你要做的是为每个id
计算sex
的唯一值的数量。您希望它是1,但如果是2,则表示转录错误。在R中实现这一点的方法是
any(by(df$sex,df$id,function(x) length(unique(x))) > 1)
要分解这一点,函数length(unique(x))
会告诉您向量中不同的唯一值的数量。它与因子的级别
类似(但不完全相同,因为因子可能没有级别)
函数by
根据df$id
计算df$sex
的每个子集上的给定函数。换句话说,它计算length(unique(df$sex))
其中df$id
是1,然后是2,以此类推
最后,any(…>1)
检查是否有任何结果不止一个。如果是,结果将是TRUE
(您可以使用which
,而不是any
,来查找哪些是正确的)。如果一切正常,结果将是FALSE
我们可以尝试使用dplyr
示例数据:
df=data.frame(year=c(2002,2002,2004,2004,2006,2008,2008,2010),
id=c(1,2,1,2,3,3,4,4),
sex=c("F","M","M","M","M","M","F","F"))
Id 1既是F又是M
library(dplyr)
df%>%group_by(id)%>%summarise(sexes=length(unique(sex)))
# A tibble: 4 x 2
id sexes
<dbl> <int>
1 1 2
2 2 1
3 3 1
4 4 1
库(dplyr)
df%%>%分组依据(id)%%>%总结(性别=长度(唯一性(性别)))
#一个tibble:4x2
id性别
1 1 2
2 2 1
3 3 1
4 4 1
然后我们可以过滤:
df%>%group_by(id)%>%summarise(sexes=length(unique(sex)))%>%filter(sexes==2)
# A tibble: 1 x 2
id sexes
<dbl> <int>
1 1 2
df%%>%groupby(id)%%>%summary(性别=长度(唯一(性别)))%%>%filter(性别==2)
#一个tibble:1x2
id性别
1 1 2
df$x