R 当没有用于某些重复的列名时,重新塑造为长格式
我有一个下面的示例数据集,我正在尝试使用data.table包(请不要使用dplyr解决方案)将其重塑为长格式R 当没有用于某些重复的列名时,重新塑造为长格式,r,data.table,reshape,R,Data.table,Reshape,我有一个下面的示例数据集,我正在尝试使用data.table包(请不要使用dplyr解决方案)将其重塑为长格式 请建议 一种选择是进行melt/dcast dcast(melt(setDT(test_data), measure = patterns("d\\d+"))[, c("var1", "var2") := tstrsplit(variable, "_")[-1]], id + var1 ~ var2, value.var = 'value')[order(var
请建议 一种选择是进行
melt/dcast
dcast(melt(setDT(test_data), measure = patterns("d\\d+"))[,
c("var1", "var2") := tstrsplit(variable, "_")[-1]],
id + var1 ~ var2, value.var = 'value')[order(var1)]
# id var1 alt pre
# 1: a d1 2 5
# 2: b d1 3 4
# 3: c d1 4 5
# 4: d d1 5 5
# 5: a d2 4 NA
# 6: b d2 5 NA
# 7: c d2 6 NA
# 8: d d2 7 NA
# 9: a d3 8 5
#10: b d3 9 5
#11: c d3 10 5
#12: d d3 11 5
目前,大多数R方法不能很好地处理这些类型的不平衡数据集,而是要求您首先将数据转换为“长”格式,进行一些转换,然后返回到“宽”格式。为此,我编写了
merged.stack
函数作为我的“splitstackshape”包的一部分,之所以这样命名是因为它将首先stack
相关的数据列放入列表
,然后merge
将它们合并在一起
该方法类似于:
library(splitstackshape)
merged.stack(test_data, var.stubs = c("_alt", "_pre"), sep = "var.stubs", atStart = FALSE)
# id .time_1 _alt _pre
# 1: a demo_d1 2 5
# 2: a demo_d2 4 NA
# 3: a demo_d3 8 5
# 4: b demo_d1 3 4
# 5: b demo_d2 5 NA
# 6: b demo_d3 9 5
# 7: c demo_d1 4 5
# 8: c demo_d2 6 NA
# 9: c demo_d3 10 5
# 10: d demo_d1 5 5
# 11: d demo_d2 7 NA
# 12: d demo_d3 11 5
然而,随着“data.table”给melt
带来的改进,重新审视这种方法是有意义的
可以找到工作草稿,您可以使用以下功能加载相关功能:
source("https://gist.githubusercontent.com/mrdwab/ceded54b616bdc61cb0f/raw/c5a583267f8682a5afea1b551347eafdab618471/MELT.R")
用法很简单:指定数据集、存根以及存根是在变量名的开头还是结尾
library(data.table)
ReshapeLong_(test_data, stubs = c(alt = "_alt", pre = "_pre"), end_stub = TRUE)
# id variable alt pre
# 1: a demo_d1 2 5
# 2: b demo_d1 3 4
# 3: c demo_d1 4 5
# 4: d demo_d1 5 5
# 5: a demo_d2 4 NA
# 6: b demo_d2 5 NA
# 7: c demo_d2 6 NA
# 8: d demo_d2 7 NA
# 9: a demo_d3 8 5
# 10: b demo_d3 9 5
# 11: c demo_d3 10 5
# 12: d demo_d3 11 5
简单的黑客程序是
test_data <- as.data.table(test_data)
test_data[,.NA:=NA]
melt(test_data, id='id',
measure = list(c('demo_d1_alt', 'demo_d2_alt', 'demo_d3_alt'),
c('demo_d1_pre', '.NA', 'demo_d3_pre')))
测试数据谢谢。所以,melt
无法单独处理它?@Metrics为使代码正常工作,应该有相应的成对列。这里,我们有d3_pre在末尾。所以,它认为这是“d2_alt”的成对列。为了避免这种情况,请在转换为数据之前创建一列NAs,即cbind(测试数据[1:4],演示数据[2\u pre=NA\u real\u,测试数据[5:6])
。因为我只需要创建一个变量,所以这是有效的。请参阅和了解导致我起草草案的原因。谢谢您的回答。
source("https://gist.githubusercontent.com/mrdwab/ceded54b616bdc61cb0f/raw/c5a583267f8682a5afea1b551347eafdab618471/MELT.R")
library(data.table)
ReshapeLong_(test_data, stubs = c(alt = "_alt", pre = "_pre"), end_stub = TRUE)
# id variable alt pre
# 1: a demo_d1 2 5
# 2: b demo_d1 3 4
# 3: c demo_d1 4 5
# 4: d demo_d1 5 5
# 5: a demo_d2 4 NA
# 6: b demo_d2 5 NA
# 7: c demo_d2 6 NA
# 8: d demo_d2 7 NA
# 9: a demo_d3 8 5
# 10: b demo_d3 9 5
# 11: c demo_d3 10 5
# 12: d demo_d3 11 5
test_data <- as.data.table(test_data)
test_data[,.NA:=NA]
melt(test_data, id='id',
measure = list(c('demo_d1_alt', 'demo_d2_alt', 'demo_d3_alt'),
c('demo_d1_pre', '.NA', 'demo_d3_pre')))
test_data <- as.data.table(test_data)
test_data[,.NA:=NA]
melt(test_data, id='id',
measure = list(c('demo_d1_alt', 'demo_d2_alt', '.NA'),
c('demo_d1_pre', '.NA', 'demo_d3_pre')))