R相当于Stata`tablate,generate()`命令
我想模仿R中Stata的R相当于Stata`tablate,generate()`命令,r,stata,dummy-variable,R,Stata,Dummy Variable,我想模仿R中Stata的制表,generate()命令的行为,如下图所示;该命令的功能有两方面。首先,在我的示例中,它生成频率计数的单向表。其次,它使用选项中声明的前缀(stubname),为变量(var1)中包含的每个值生成虚拟变量,并生成(),以命名生成的虚拟变量(d_1-d_7)。我的问题是关于第二个功能。R-base解决方案是首选方案,但也欢迎打包依赖解决方案 [编辑]:我的最终目标是生成模拟屏幕上打印的最后一个数据集的data.frame() clear all input var1
制表,generate()
命令的行为,如下图所示;该命令的功能有两方面。首先,在我的示例中,它生成频率计数的单向表。其次,它使用选项中声明的前缀(stubname),为变量(var1
)中包含的每个值生成虚拟变量,并生成()
,以命名生成的虚拟变量(d_1-d_7
)。我的问题是关于第二个功能。R-base解决方案是首选方案,但也欢迎打包依赖解决方案
[编辑]:我的最终目标是生成模拟屏幕上打印的最后一个数据集的data.frame()
clear all
input var1
0
1
2
2
2
2
42
42
777
888
999999
end
tabulate var1 ,gen(d_)
/* var1 | Freq. Percent Cum.
------------+-----------------------------------
0 | 1 9.09 9.09
1 | 1 9.09 18.18
2 | 4 36.36 54.55
42 | 2 18.18 72.73
777 | 1 9.09 81.82
888 | 1 9.09 90.91
999999 | 1 9.09 100.00
------------+-----------------------------------
Total | 11 100.00 */
list, sep(11)
/* +--------------------------------------------------+
| var1 d_1 d_2 d_3 d_4 d_5 d_6 d_7 |
|--------------------------------------------------|
1. | 0 1 0 0 0 0 0 0 |
2. | 1 0 1 0 0 0 0 0 |
3. | 2 0 0 1 0 0 0 0 |
4. | 2 0 0 1 0 0 0 0 |
5. | 2 0 0 1 0 0 0 0 |
6. | 2 0 0 1 0 0 0 0 |
7. | 42 0 0 0 1 0 0 0 |
8. | 42 0 0 0 1 0 0 0 |
9. | 777 0 0 0 0 1 0 0 |
10. | 888 0 0 0 0 0 1 0 |
11. | 999999 0 0 0 0 0 0 1 |
+--------------------------------------------------+ */
我猜您假定
var_1
中的每个值都是唯一的,这样您就可以得到虚拟变量,而不是d
字段中的计数
您可以尝试以下方法:
var1 <- 1:5
dummy_matrix <- vapply(var1, function(x) as.numeric(var1 == x), rep(1, 5)) # create a matrix of dummy vars
colnames(dummy_matrix) <- paste0("d_", var1) # name the columns
cbind(var1, dummy_matrix) # bind to var1
我猜您假定
var_1
中的每个值都是唯一的,这样您就可以得到虚拟变量,而不是d
字段中的计数
您可以尝试以下方法:
var1 <- 1:5
dummy_matrix <- vapply(var1, function(x) as.numeric(var1 == x), rep(1, 5)) # create a matrix of dummy vars
colnames(dummy_matrix) <- paste0("d_", var1) # name the columns
cbind(var1, dummy_matrix) # bind to var1
set.seed(123)
df=data.frame(var1=factor(样本(10,20,TRUE)))
df=data.frame(df,model.matrix(~0+var1,df))#这里的0用于抑制截距。最小的值将是基组,因此将被删除。
名称(df)[-1]=paste0('d_',1:(ncol(df)-1))
df
var1 d_1 d_2 d_3 d_4 d_5 d_6 d_7 d_8 d_9
1 3 0 1 0 0 0 0 0 0 0
2 3 0 1 0 0 0 0 0 0 0
3 10 0 0 0 0 0 0 0 0 1
4 2 1 0 0 0 0 0 0 0 0
5 6 0 0 0 0 1 0 0 0 0
6 5 0 0 0 1 0 0 0 0 0
7 4 0 0 1 0 0 0 0 0 0
8 6 0 0 0 0 1 0 0 0 0
9 9 0 0 0 0 0 0 0 1 0
10 10 0 0 0 0 0 0 0 0 1
11 5 0 0 0 1 0 0 0 0 0
12 3 0 1 0 0 0 0 0 0 0
13 9 0 0 0 0 0 0 0 1 0
14 9 0 0 0 0 0 0 0 1 0
15 9 0 0 0 0 0 0 0 1 0
16 3 0 1 0 0 0 0 0 0 0
17 8 0 0 0 0 0 0 1 0 0
18 10 0 0 0 0 0 0 0 0 1
19 7 0 0 0 0 0 1 0 0 0
20 10 0 0 0 0 0 0 0 0 1
设置种子(123)
df=data.frame(var1=factor(样本(10,20,TRUE)))
df=data.frame(df,model.matrix(~0+var1,df))#这里的0用于抑制截距。最小的值将是基组,因此将被删除。
名称(df)[-1]=paste0('d_',1:(ncol(df)-1))
df
var1 d_1 d_2 d_3 d_4 d_5 d_6 d_7 d_8 d_9
1 3 0 1 0 0 0 0 0 0 0
2 3 0 1 0 0 0 0 0 0 0
3 10 0 0 0 0 0 0 0 0 1
4 2 1 0 0 0 0 0 0 0 0
5 6 0 0 0 0 1 0 0 0 0
6 5 0 0 0 1 0 0 0 0 0
7 4 0 0 1 0 0 0 0 0 0
8 6 0 0 0 0 1 0 0 0 0
9 9 0 0 0 0 0 0 0 1 0
10 10 0 0 0 0 0 0 0 0 1
11 5 0 0 0 1 0 0 0 0 0
12 3 0 1 0 0 0 0 0 0 0
13 9 0 0 0 0 0 0 0 1 0
14 9 0 0 0 0 0 0 0 1 0
15 9 0 0 0 0 0 0 0 1 0
16 3 0 1 0 0 0 0 0 0 0
17 8 0 0 0 0 0 0 1 0 0
18 10 0 0 0 0 0 0 0 0 1
19 7 0 0 0 0 0 1 0 0 0
20 10 0 0 0 0 0 0 0 0 1
model.matrix(~0+x,data.frame(x=factor(1:5))
将创建第二个表。这将从Stata的角度对R进行一点介绍:感谢@EyayawB的参考。!我查一下。然而,我更新了这个问题,使其更加精确,我怀疑您提供的解决方案不再合适。model.matrix(~0+x,data.frame(x=factor(1:5))
将创建第二个表。这将从Stata的角度为您介绍R:感谢@EyayawB的参考资料。!我查一下。但是,我更新了问题,使之更加精确,我怀疑您提供的解决方案不再合适。谢谢您的回答。我更新了示例以避免误解。具体来说,var_1
中的值不一定是唯一的。此外,var_1
中包含的不同值的数量是未知的。我认为@EyayawB.的评论毕竟是正确的!试试这样的var1我想你是对的。如果你把这变成一个答案,我会接受它,这样,我们就可以在系统上标记这个问题为已解决。谢谢你的回答。我更新了示例以避免误解。具体来说,var_1
中的值不一定是唯一的。此外,var_1
中包含的不同值的数量是未知的。我认为@EyayawB.的评论毕竟是正确的!试试这样的var1我想你是对的。如果你把这变成一个答案,我会接受它,这样,我们就可以在系统上标记这个问题为已解决。