R相当于Stata`tablate，generate（）`命令_R_Stata_Dummy Variable

R相当于Stata`tablate，generate（）`命令

r stata

R相当于Stata`tablate，generate（）`命令,r,stata,dummy-variable,R,Stata,Dummy Variable,我想模仿R中Stata的制表，generate（）命令的行为，如下图所示；该命令的功能有两方面。首先，在我的示例中，它生成频率计数的单向表。其次，它使用选项中声明的前缀（stubname），为变量（var1）中包含的每个值生成虚拟变量，并生成（），以命名生成的虚拟变量（d_1-d_7）。我的问题是关于第二个功能。R-base解决方案是首选方案，但也欢迎打包依赖解决方案 [编辑]：我的最终目标是生成模拟屏幕上打印的最后一个数据集的data.frame（） clear all input var1

我想模仿R中Stata的

制表，generate（）

命令的行为，如下图所示；该命令的功能有两方面。首先，在我的示例中，它生成频率计数的单向表。其次，它使用选项

中声明的前缀（stubname），为变量（var1
）中包含的每个值生成虚拟变量，并生成（）

，以命名生成的虚拟变量（

d_1-d_7

）。我的问题是关于第二个功能。R-base解决方案是首选方案，但也欢迎打包依赖解决方案

[编辑]：我的最终目标是生成模拟屏幕上打印的最后一个数据集的

data.frame（）

clear all
input var1 
0
1
2
2
2
2
42
42
777
888
999999
end
tabulate var1 ,gen(d_)

/*     var1 |      Freq.     Percent        Cum.
------------+-----------------------------------
          0 |          1        9.09        9.09
          1 |          1        9.09       18.18
          2 |          4       36.36       54.55
         42 |          2       18.18       72.73
        777 |          1        9.09       81.82
        888 |          1        9.09       90.91
     999999 |          1        9.09      100.00
------------+-----------------------------------
      Total |         11      100.00          */


list, sep(11)



/*   +--------------------------------------------------+
     |   var1   d_1   d_2   d_3   d_4   d_5   d_6   d_7 |
     |--------------------------------------------------|
  1. |      0     1     0     0     0     0     0     0 |
  2. |      1     0     1     0     0     0     0     0 |
  3. |      2     0     0     1     0     0     0     0 |
  4. |      2     0     0     1     0     0     0     0 |
  5. |      2     0     0     1     0     0     0     0 |
  6. |      2     0     0     1     0     0     0     0 |
  7. |     42     0     0     0     1     0     0     0 |
  8. |     42     0     0     0     1     0     0     0 |
  9. |    777     0     0     0     0     1     0     0 |
 10. |    888     0     0     0     0     0     1     0 |
 11. | 999999     0     0     0     0     0     0     1 |
     +--------------------------------------------------+ */

我猜您假定

var_1

中的每个值都是唯一的，这样您就可以得到虚拟变量，而不是

字段中的计数

您可以尝试以下方法：

var1 <- 1:5
dummy_matrix <- vapply(var1, function(x) as.numeric(var1 == x), rep(1, 5)) # create a matrix of dummy vars
colnames(dummy_matrix) <- paste0("d_", var1) # name the columns
cbind(var1, dummy_matrix) # bind to var1

我猜您假定

var_1

中的每个值都是唯一的，这样您就可以得到虚拟变量，而不是

字段中的计数

您可以尝试以下方法：

var1 <- 1:5
dummy_matrix <- vapply(var1, function(x) as.numeric(var1 == x), rep(1, 5)) # create a matrix of dummy vars
colnames(dummy_matrix) <- paste0("d_", var1) # name the columns
cbind(var1, dummy_matrix) # bind to var1

set.seed（123）
df=data.frame（var1=factor（样本（10,20,TRUE）））
df=data.frame（df，model.matrix（~0+var1，df））#这里的0用于抑制截距。最小的值将是基组，因此将被删除。
名称（df）[-1]=paste0（'d_'，1:（ncol（df）-1））
df
var1 d_1 d_2 d_3 d_4 d_5 d_6 d_7 d_8 d_9
1     3   0   1   0   0   0   0   0   0   0
2     3   0   1   0   0   0   0   0   0   0
3    10   0   0   0   0   0   0   0   0   1
4     2   1   0   0   0   0   0   0   0   0
5     6   0   0   0   0   1   0   0   0   0
6     5   0   0   0   1   0   0   0   0   0
7     4   0   0   1   0   0   0   0   0   0
8     6   0   0   0   0   1   0   0   0   0
9     9   0   0   0   0   0   0   0   1   0
10   10   0   0   0   0   0   0   0   0   1
11    5   0   0   0   1   0   0   0   0   0
12    3   0   1   0   0   0   0   0   0   0
13    9   0   0   0   0   0   0   0   1   0
14    9   0   0   0   0   0   0   0   1   0
15    9   0   0   0   0   0   0   0   1   0
16    3   0   1   0   0   0   0   0   0   0
17    8   0   0   0   0   0   0   1   0   0
18   10   0   0   0   0   0   0   0   0   1
19    7   0   0   0   0   0   1   0   0   0
20   10   0   0   0   0   0   0   0   0   1

设置种子（123）
df=data.frame（var1=factor（样本（10,20,TRUE）））
df=data.frame（df，model.matrix（~0+var1，df））#这里的0用于抑制截距。最小的值将是基组，因此将被删除。
名称（df）[-1]=paste0（'d_'，1:（ncol（df）-1））
df
var1 d_1 d_2 d_3 d_4 d_5 d_6 d_7 d_8 d_9
1     3   0   1   0   0   0   0   0   0   0
2     3   0   1   0   0   0   0   0   0   0
3    10   0   0   0   0   0   0   0   0   1
4     2   1   0   0   0   0   0   0   0   0
5     6   0   0   0   0   1   0   0   0   0
6     5   0   0   0   1   0   0   0   0   0
7     4   0   0   1   0   0   0   0   0   0
8     6   0   0   0   0   1   0   0   0   0
9     9   0   0   0   0   0   0   0   1   0
10   10   0   0   0   0   0   0   0   0   1
11    5   0   0   0   1   0   0   0   0   0
12    3   0   1   0   0   0   0   0   0   0
13    9   0   0   0   0   0   0   0   1   0
14    9   0   0   0   0   0   0   0   1   0
15    9   0   0   0   0   0   0   0   1   0
16    3   0   1   0   0   0   0   0   0   0
17    8   0   0   0   0   0   0   1   0   0
18   10   0   0   0   0   0   0   0   0   1
19    7   0   0   0   0   0   1   0   0   0
20   10   0   0   0   0   0   0   0   0   1

model.matrix（~0+x，data.frame（x=factor（1:5））

将创建第二个表。这将从Stata的角度对R进行一点介绍：感谢@EyayawB的参考。！我查一下。然而，我更新了这个问题，使其更加精确，我怀疑您提供的解决方案不再合适。

model.matrix（~0+x，data.frame（x=factor（1:5））

将创建第二个表。这将从Stata的角度为您介绍R：感谢@EyayawB的参考资料。！我查一下。但是，我更新了问题，使之更加精确，我怀疑您提供的解决方案不再合适。谢谢您的回答。我更新了示例以避免误解。具体来说，

var_1

中的值不一定是唯一的。此外，

var_1

中包含的不同值的数量是未知的。我认为@EyayawB.的评论毕竟是正确的！试试这样的

var1我想你是对的。如果你把这变成一个答案，我会接受它，这样，我们就可以在系统上标记这个问题为已解决。谢谢你的回答。我更新了示例以避免误解。具体来说，var_1
中的值不一定是唯一的。此外，var_1
中包含的不同值的数量是未知的。我认为@EyayawB.的评论毕竟是正确的！试试这样的var1我想你是对的。如果你把这变成一个答案，我会接受它，这样，我们就可以在系统上标记这个问题为已解决。