不平衡面板数据的R样本_R_Random Sample_Panel Data

不平衡面板数据的R样本

不平衡面板数据的R样本,r,random-sample,panel-data,R,Random Sample,Panel Data,我正在处理不平衡的面板数据，我想从中抽取一个随机样本，该样本不受每个单位不同观察次数的影响。例如，在下面的代码中，IBM被选中的可能性是GOOG的两倍，是MSFT的五倍。是否有任何方法可以对这些数据进行抽样，就好像每个公司/年被选中的概率相等一样？可能通过使用采样包 df <- data.frame(COMPANY=c(rep('IBM',50),rep('GOOG',25),rep('MSFT',10)), YEAR=c(1961:2010,1988:2012,1996:2005), P

我正在处理不平衡的面板数据，我想从中抽取一个随机样本，该样本不受每个单位不同观察次数的影响。例如，在下面的代码中，IBM被选中的可能性是GOOG的两倍，是MSFT的五倍。是否有任何方法可以对这些数据进行抽样，就好像每个公司/年被选中的概率相等一样？可能通过使用采样包

df <- data.frame(COMPANY=c(rep('IBM',50),rep('GOOG',25),rep('MSFT',10)), YEAR=c(1961:2010,1988:2012,1996:2005), PROFIT=rnorm(85))
df

df[sample(nrow(df), 20, replace=FALSE), ]

df以下是您可以做的：
probs <- 1 / table(df$COMPANY)[df$COMPANY]
df[sample(nrow(df), 20, replace = FALSE, prob = probs), ]

我们没有将每行的概率等于1/（50+25+10），而是将其标准化，以便每个公司都有相同的被选择概率：
tapply(probs, df$COMPANY, sum)
# GOOG  IBM MSFT 
#   1    1    1

（probs
和为3，而不是1，但是sample
会处理这个问题）。为了让数学更清楚，让我们举一个简单的例子（它也不是1，但这不是问题）：
vec我只是一个新的R用户，但以下是我的解决方案：
加载示例数据（基于PSID）。数据是不平衡的小组数据：1977年至1983年间，共有98项个人观察，15组，性别鉴定（未使用）
df%样本（1）

从15个随机观察中创建5个样本
sample <- ungroup(sample) %>% sample_n(5) %>% mutate(id=row_number())

sample%sample\n（5）%%>%mutate（id=row\u number（））

将m:1旧数据帧与示例数据帧合并
df_new <- merge(x = df, y = sample, by = "id", all.y = TRUE)

df_new非常有趣。问题是什么
df <- structure(list(id = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L,2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 4L, 5L, 5L, 5L, 5L, 5L,5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L,8L, 8L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L, 9L, 9L, 9L, 9L, 10L,10L, 10L, 10L, 10L, 10L, 10L, 11L, 11L, 11L, 11L, 11L, 11L, 11L,12L, 12L, 12L, 12L, 12L, 12L, 12L, 13L, 13L, 13L, 13L, 13L, 13L,13L, 14L, 14L, 14L, 14L, 14L, 14L, 14L, 15L, 15L, 15L, 15L, 15L,15L, 15L), year = c(1978L, 1979L, 1980L, 1981L, 1982L, 1983L,1977L, 1978L, 1979L, 1980L, 1981L, 1982L, 1983L, 1977L, 1978L,1979L, 1980L, 1981L, 1982L, 1983L, 1979L, 1977L, 1978L, 1979L,1980L, 1981L, 1982L, 1983L, 1977L, 1978L, 1979L, 1980L, 1981L,1982L, 1983L, 1977L, 1978L, 1979L, 1980L, 1981L, 1982L, 1983L,1977L, 1978L, 1979L, 1980L, 1981L, 1982L, 1983L, 1977L, 1978L,1979L, 1980L, 1981L, 1982L, 1983L, 1977L, 1978L, 1979L, 1980L,1981L, 1982L, 1983L, 1977L, 1978L, 1979L, 1980L, 1981L, 1982L,1983L, 1977L, 1978L, 1979L, 1980L, 1981L, 1982L, 1983L, 1977L,1978L, 1979L, 1980L, 1981L, 1982L, 1983L, 1977L, 1978L, 1979L,1980L, 1981L, 1982L, 1983L, 1977L, 1978L, 1979L, 1980L, 1981L,1982L, 1983L), gender = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L,2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L,1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L,2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L,2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L)), .Names = c("id", "year","gender"), row.names = c(NA, 98L), class = "data.frame")

sample <- select(df, id) %>% group_by(id) %>% sample_n(1) 

sample <- ungroup(sample) %>% sample_n(5) %>% mutate(id=row_number())

df_new <- merge(x = df, y = sample, by = "id", all.y = TRUE)