R中的Datafram格式转换：如何将日期转换为年（每个ID每年都有新行）_R_Dataframe_Date_Time

R中的Datafram格式转换：如何将日期转换为年（每个ID每年都有新行）

r dataframe date time

R中的Datafram格式转换：如何将日期转换为年（每个ID每年都有新行）,r,dataframe,date,time,R,Dataframe,Date,Time,我必须将数据帧从当前格式转换为新格式（见下图或结构）。我不知道我怎样才能做到这一点。我希望每个ID有一年，从2013年到2018年（因此每个ID有6行，每年一行）。日期是居住在该地址的日期（进入日期）和离开该地址的日期（结束日期）。因此，每个ID和年份都给出了他们居住的zipcode和城市。ID（每年）居住的地方应该是他们在那一年居住的时间最长的地方。我已经将截止日期设置为2018年12月31日，如果他们仍然住在那里（这里用NA显示）。下面是一张图片和前3行。希望你们能帮我当前格式： ID（

我必须将数据帧从当前格式转换为新格式（见下图或结构）。我不知道我怎样才能做到这一点。我希望每个ID有一年，从2013年到2018年（因此每个ID有6行，每年一行）。日期是居住在该地址的日期（进入日期）和离开该地址的日期（结束日期）。因此，每个ID和年份都给出了他们居住的zipcode和城市。ID（每年）居住的地方应该是他们在那一年居住的时间最长的地方。我已经将截止日期设置为2018年12月31日，如果他们仍然住在那里（这里用NA显示）。下面是一张图片和前3行。希望你们能帮我

当前格式：

ID（1,1,2）
ZIPCODE（1234AB、5678CD、9012EF）
城市（纽约、洛杉矶、迈阿密）
入境日期（2014年1月2日、2017年3月13日、2011年11月10日）
结束日期（2017年5月13日、2018年12月21日、2017年9月6日）

新格式：

ID（1,1,1,1,1,1,1,2）
年份（2013、2014、2015、2016、2017、2018、2013）
ZIPCODE（NA、1234AB、1234AB、1234AB、5678CD、5678CD、9012EF）
城市（北美、纽约、纽约、纽约、洛杉矶、洛杉矶、迈阿密）

map2

unest

输入日期

结束日期

complete

library(tidyverse)
library(lubridate)

df %>%
  mutate(ENTRY_END_INT = interval(ENTRY_DATE, END_DATE),
         YEAR = map2(year(ENTRY_DATE), year(END_DATE), seq)) %>%
  unnest(YEAR) %>%
  mutate(YEAR_INT = interval(as.Date(paste0(YEAR, '-01-01')), as.Date(paste0(YEAR, '-12-31'))),
         WEEKS = as.duration(intersect(ENTRY_END_INT, YEAR_INT))) %>%
  group_by(ID, YEAR) %>%
  arrange(desc(WEEKS)) %>%
  slice(1) %>%
  group_by(ID) %>%
  complete(YEAR = seq(2013, 2018, 1)) %>%
  arrange(ID, YEAR) %>%
  select(-c(ENTRY_DATE, END_DATE, ENTRY_END_INT, YEAR_INT, WEEKS))

输出

# A tibble: 14 x 4
# Groups:   ID [2]
      ID  YEAR ZIPCODE CITY   
   <dbl> <dbl> <chr>   <chr>  
 1     1  2013 NA      NA     
 2     1  2014 1234AB  NEWYORK
 3     1  2015 1234AB  NEWYORK
 4     1  2016 1234AB  NEWYORK
 5     1  2017 5678CD  LA     
 6     1  2018 5678CD  LA     
 7     2  2011 9012EF  MIAMI  
 8     2  2012 9012EF  MIAMI  
 9     2  2013 9012EF  MIAMI  
10     2  2014 9012EF  MIAMI  
11     2  2015 9012EF  MIAMI  
12     2  2016 9012EF  MIAMI  
13     2  2017 9012EF  MIAMI  
14     2  2018 NA      NA

#一个tible:14 x 4
#组别:ID[2]
ID年份ZIPCODE城市
1 2013年11月不适用
2 2014年1月1234AB纽约
3 1 2015 1234AB纽约
4.1 2016年1234AB纽约
5.1 2017 5678CD LA
2018年6月1日5678CD洛杉矶
7.2 2011 9012EF迈阿密
8.2 2012 9012EF迈阿密
9.2 2013 9012EF迈阿密
10 2 2014 9012EF迈阿密
11.2 2015 9012EF迈阿密
12 2016年2月9012EF迈阿密
13.2 2017 9012EF迈阿密
14.2 2018年不适用

数据

df <- structure(list(ID = c(1, 1, 2), ZIPCODE = c("1234AB", "5678CD", 
"9012EF"), CITY = c("NEWYORK", "LA", "MIAMI"), ENTRY_DATE = structure(c(16072, 
17238, 15288), class = "Date"), END_DATE = structure(c(17299, 
17896, 17415), class = "Date")), class = "data.frame", row.names = c(NA, 
-3L))

df您能解释一下如何为ZIPCODE
和CITY
赋值吗？通常，共享数据的更好方法是使用“dput”。阅读有关如何给出建议的文章。