R 使用两行变量名重塑/熔化数据

R 使用两行变量名重塑/熔化数据,r,reshape2,melt,R,Reshape2,Melt,我有一个大的数据集,我需要重塑/融化。 我遇到的问题是,第一行和第二行是变量名(即,第一行是一个人的id,第二行列出了这个人的四个属性)。除此之外,第一列还捕获了收集值的日期。要查看我的数据集示例,请查看以下google sheet()中的Sheet1。我想重塑我的数据,使之看起来像上面谷歌表单中的表单2 是否有一种方法可以指定我的melt命令中有两个ID。第一个id是第一行(从第二列开始),第二个id是第一列(从第二行开始)。如果我能为我要做的事情编写一个伪R脚本,我会这样写 melt(dt,

我有一个大的数据集,我需要重塑/融化。 我遇到的问题是,第一行和第二行是变量名(即,第一行是一个人的id,第二行列出了这个人的四个属性)。除此之外,第一列还捕获了收集值的日期。要查看我的数据集示例,请查看以下google sheet()中的Sheet1。我想重塑我的数据,使之看起来像上面谷歌表单中的表单2

是否有一种方法可以指定我的melt命令中有两个ID。第一个id是第一行(从第二列开始),第二个id是第一列(从第二行开始)。如果我能为我要做的事情编写一个伪R脚本,我会这样写

melt(dt,id=c(“从A2:A6开始的日期”,“从B1:I1开始的人”)


谢谢!

这里是一个
数据表。为了方便起见,使用
readr::type_convert
方法:

df 2:2021-05-02人员A 50.4132 52.6316 67.8571 41.8605
#>3:2021-05-03人A 53.7190 49.1228 67.8571 49.6124
#>4:2021-05-04人名A 53.719052.631633.214345.7364
#>5:2021-05-01人B 40.4959 38.5965 60.7143 32.5581
#>6:2021-05-02人B 41.7355 43.8596 42.8571 40.3101
#>7:2021-05-03人B 41.3223 38.5965 48.2143 39.5349
#>8:2021-05-04人B 29.7521 33.3333 57.1429 16.2791

由(v2.0.0)于2021-05-05创建。为了使用基础形状,必须将标高合并为一个字符串,用点分隔并重命名变量

使用上面的data.frame

# Get variables names
varA <- as.character(df[1,])
varB <- names(df)
newNames <- paste(varA, varB, sep = '.')  # don't forget the point

# Drop first line, rename variables and pass rownames to a column
df <- df[-1,] 
names(df) <- newNames
df$dates <- row.names(df)    # added after last column

# reshape
lastVar <- ncol(df)-1        # because of rownames in last column
df <- reshape(df, varying = 1:lastVar, direction = 'long')

# and beautify
row.names(df) <- NULL
names(df)[names(df) == 'time'] <- 'person'
df <- df[, -ncol(df)]
df

>        dates   person    var1    var2    var3    var4
> 1 2021-05-01 person_A 45.0413 43.8596 67.8571 35.6589
> 2 2021-05-02 person_A 50.4132 52.6316 67.8571 41.8605
> 3 2021-05-03 person_A  53.719 49.1228 67.8571 49.6124
> 4 2021-05-04 person_A  53.719 52.6316 73.2143 45.7364
> 5 2021-05-01 person_B 40.4959 38.5965 60.7143 32.5581
> 6 2021-05-02 person_B 41.7355 43.8596 42.8571 40.3101
> 7 2021-05-03 person_B 41.3223 38.5965 48.2143 39.5349
> 8 2021-05-04 person_B 29.7521 33.3333 57.1429 16.2791

#获取变量名称

varA以下方法将完成您的工作

library(tidyverse)
name <- readr::read_csv("csvs1.csv", col_names = F, n_max = 2)

name
# A tibble: 2 x 9
  X1    X2       X3       X4       X5       X6       X7       X8       X9      
  <chr> <chr>    <chr>    <chr>    <chr>    <chr>    <chr>    <chr>    <chr>   
1 NA    person_A person_A person_A person_A person_B person_B person_B person_B
2 Dates var1     var2     var3     var4     var1     var2     var3     var4    

nm <- paste(names[1,], names[2,], sep = "-")
nm
[1] "NA-Dates"      "person_A-var1" "person_A-var2" "person_A-var3" "person_A-var4" "person_B-var1" "person_B-var2"
[8] "person_B-var3" "person_B-var4"

data <- readr::read_csv("csvs1.csv", col_names = F, skip = 2)

names(data) <- nm
data
# A tibble: 4 x 9
  `NA-Dates` `person_A-var1` `person_A-var2` `person_A-var3` `person_A-var4` `person_B-var1` `person_B-var2`
  <date>               <dbl>           <dbl>           <dbl>           <dbl>           <dbl>           <dbl>
1 2021-05-01            45.0            43.9            67.9            35.7            40.5            38.6
2 2021-05-02            50.4            52.6            67.9            41.9            41.7            43.9
3 2021-05-03            53.7            49.1            67.9            49.6            41.3            38.6
4 2021-05-04            53.7            52.6            73.2            45.7            29.8            33.3
# ... with 2 more variables: person_B-var3 <dbl>, person_B-var4 <dbl>

data %>% 
+   pivot_longer(!`NA-Dates`, names_to = c('person', '.value'), names_sep = '-', names_prefix = 'person_')

# A tibble: 8 x 6
  `NA-Dates` person  var1  var2  var3  var4
  <date>     <chr>  <dbl> <dbl> <dbl> <dbl>
1 2021-05-01 A       45.0  43.9  67.9  35.7
2 2021-05-01 B       40.5  38.6  60.7  32.6
3 2021-05-02 A       50.4  52.6  67.9  41.9
4 2021-05-02 B       41.7  43.9  42.9  40.3
5 2021-05-03 A       53.7  49.1  67.9  49.6
6 2021-05-03 B       41.3  38.6  48.2  39.5
7 2021-05-04 A       53.7  52.6  73.2  45.7
8 2021-05-04 B       29.8  33.3  57.1  16.3
库(tidyverse)

名称谢谢!你能帮我理解为什么你需要否定日期变量吗?我只是想理解为什么你需要在
NA Dates
前面加上!因为除了
NA Dates
之外的所有列都要进行数据透视。所以我没有写所有要进行数据透视的列的名称,而是使用了不进行数据透视的列的名称。