R中的Datafram格式转换:如何将日期转换为年(每个ID每年都有新行)

R中的Datafram格式转换:如何将日期转换为年(每个ID每年都有新行),r,dataframe,date,time,R,Dataframe,Date,Time,我必须将数据帧从当前格式转换为新格式(见下图或结构)。我不知道我怎样才能做到这一点。我希望每个ID有一年,从2013年到2018年(因此每个ID有6行,每年一行)。日期是居住在该地址的日期(进入日期)和离开该地址的日期(结束日期)。因此,每个ID和年份都给出了他们居住的zipcode和城市。ID(每年)居住的地方应该是他们在那一年居住的时间最长的地方。我已经将截止日期设置为2018年12月31日,如果他们仍然住在那里(这里用NA显示)。下面是一张图片和前3行。希望你们能帮我 当前格式: ID(

我必须将数据帧从当前格式转换为新格式(见下图或结构)。我不知道我怎样才能做到这一点。我希望每个ID有一年,从2013年到2018年(因此每个ID有6行,每年一行)。日期是居住在该地址的日期(进入日期)和离开该地址的日期(结束日期)。因此,每个ID和年份都给出了他们居住的zipcode和城市。ID(每年)居住的地方应该是他们在那一年居住的时间最长的地方。我已经将截止日期设置为2018年12月31日,如果他们仍然住在那里(这里用NA显示)。下面是一张图片和前3行。希望你们能帮我

当前格式:

  • ID(1,1,2)
  • ZIPCODE(1234AB、5678CD、9012EF)
  • 城市(纽约、洛杉矶、迈阿密)
  • 入境日期(2014年1月2日、2017年3月13日、2011年11月10日)
  • 结束日期(2017年5月13日、2018年12月21日、2017年9月6日)
新格式:

  • ID(1,1,1,1,1,1,1,2)
  • 年份(2013、2014、2015、2016、2017、2018、2013)
  • ZIPCODE(NA、1234AB、1234AB、1234AB、5678CD、5678CD、9012EF)
  • 城市(北美、纽约、纽约、纽约、洛杉矶、洛杉矶、迈阿密)

    • 这里有一种方法

      首先,为每个位置创建从开始日期到结束日期的日期间隔。使用
      map2
      unest
      您将为每年创建额外的行

      由于您希望包含该日历年天数最多的位置信息,因此可以查看两个间隔之间的重叠:一个间隔是日历年,第二个间隔是
      输入日期
      结束日期
      。对于每一年,您可以通过<代码> max(星期) <代码> >筛选器> />(或确保每年一个地址,按周降序排列,<代码>切片(1)< /代码>或用最新<代码> TiDyr < /代码>考虑<代码> SLICEXMAX )。这将保留间隔之间存在最大周数持续时间重叠的行

      最终的
      complete
      将确保您在2013-2018年的所有年份都有行

      library(tidyverse)
      library(lubridate)
      
      df %>%
        mutate(ENTRY_END_INT = interval(ENTRY_DATE, END_DATE),
               YEAR = map2(year(ENTRY_DATE), year(END_DATE), seq)) %>%
        unnest(YEAR) %>%
        mutate(YEAR_INT = interval(as.Date(paste0(YEAR, '-01-01')), as.Date(paste0(YEAR, '-12-31'))),
               WEEKS = as.duration(intersect(ENTRY_END_INT, YEAR_INT))) %>%
        group_by(ID, YEAR) %>%
        arrange(desc(WEEKS)) %>%
        slice(1) %>%
        group_by(ID) %>%
        complete(YEAR = seq(2013, 2018, 1)) %>%
        arrange(ID, YEAR) %>%
        select(-c(ENTRY_DATE, END_DATE, ENTRY_END_INT, YEAR_INT, WEEKS))
      
      输出

      # A tibble: 14 x 4
      # Groups:   ID [2]
            ID  YEAR ZIPCODE CITY   
         <dbl> <dbl> <chr>   <chr>  
       1     1  2013 NA      NA     
       2     1  2014 1234AB  NEWYORK
       3     1  2015 1234AB  NEWYORK
       4     1  2016 1234AB  NEWYORK
       5     1  2017 5678CD  LA     
       6     1  2018 5678CD  LA     
       7     2  2011 9012EF  MIAMI  
       8     2  2012 9012EF  MIAMI  
       9     2  2013 9012EF  MIAMI  
      10     2  2014 9012EF  MIAMI  
      11     2  2015 9012EF  MIAMI  
      12     2  2016 9012EF  MIAMI  
      13     2  2017 9012EF  MIAMI  
      14     2  2018 NA      NA    
      
      #一个tible:14 x 4
      #组别:ID[2]
      ID年份ZIPCODE城市
      1 2013年11月不适用
      2 2014年1月1234AB纽约
      3 1 2015 1234AB纽约
      4.1 2016年1234AB纽约
      5.1 2017 5678CD LA
      2018年6月1日5678CD洛杉矶
      7.2 2011 9012EF迈阿密
      8.2 2012 9012EF迈阿密
      9.2 2013 9012EF迈阿密
      10 2 2014 9012EF迈阿密
      11.2 2015 9012EF迈阿密
      12 2016年2月9012EF迈阿密
      13.2 2017 9012EF迈阿密
      14.2 2018年不适用
      
      数据

      df <- structure(list(ID = c(1, 1, 2), ZIPCODE = c("1234AB", "5678CD", 
      "9012EF"), CITY = c("NEWYORK", "LA", "MIAMI"), ENTRY_DATE = structure(c(16072, 
      17238, 15288), class = "Date"), END_DATE = structure(c(17299, 
      17896, 17415), class = "Date")), class = "data.frame", row.names = c(NA, 
      -3L))
      

      df您能解释一下如何为
      ZIPCODE
      CITY
      赋值吗?通常,共享数据的更好方法是使用“dput”。阅读有关如何给出建议的文章。