R 在由逗号分隔的字符向量中查找唯一值，然后进行一次热编码_R_Split_One Hot Encoding

R 在由逗号分隔的字符向量中查找唯一值，然后进行一次热编码

R 在由逗号分隔的字符向量中查找唯一值，然后进行一次热编码,r,split,one-hot-encoding,R,Split,One Hot Encoding,基本上我有一个用逗号分隔的字符串向量。我希望使用字符串的唯一值进行热编码。我相信我必须先找到唯一的值（用逗号分隔）作为列，然后再进行热编码，但我不确定。例如，假设我有以下字符向量： people_names Bob,Megan,Mike,Sarah Mike,Sarah Megan,Sarah Bob 我希望创建一个热编码的数据帧，对应于如下向量： Bob Megan Mike Sarah 1 1 1 1 0 0 1

基本上我有一个用逗号分隔的字符串向量。我希望使用字符串的唯一值进行热编码。我相信我必须先找到唯一的值（用逗号分隔）作为列，然后再进行热编码，但我不确定。例如，假设我有以下字符向量：

people_names
Bob,Megan,Mike,Sarah
Mike,Sarah
Megan,Sarah
Bob

我希望创建一个热编码的数据帧，对应于如下向量：

Bob   Megan   Mike   Sarah
  1       1      1       1
  0       0      1       1
  0       1      0       1
  1       0      0       0

谢谢你的帮助。我真的很感激。

作为替代，在

splitstackshape

包中有一个helper函数，您可能会发现它很有用。输出是一个矩阵

people_names = c("Bob,Megan,Mike,Sarah",
                 "Mike,Sarah",
                 "Megan,Sarah",
                 "Bob")

library(tidyverse)

data.frame(people_names) %>%                # create a dataframe
  mutate(id = row_number(),                 # add row id (useful for reshaping)
         value = 1) %>%                     # add a column of 1s to denote existence
  separate_rows(people_names) %>%           # create one row per name keeping relevant info
  spread(people_names, value, fill = 0) %>% # reshape
  select(-id)                               # remove row id

#   Bob Megan Mike Sarah
# 1   1     1    1     1
# 2   0     0    1     1
# 3   0     1    0     1
# 4   1     0    0     0

splitstackshape:::charMat(strsplit(people_names, ","), fill = 0L)
#     Bob Megan Mike Sarah
#[1,]   1     1    1     1
#[2,]   0     0    1     1
#[3,]   0     1    0     1
#[4,]   1     0    0     0

从同一个软件包中，您也可以尝试

cSplit\u e

library(splitstackshape)
out <- cSplit_e(
  data.frame(people_names),
  split.col = "people_names",
  sep = ",",
  mode = "binary",
  type = "character",
  fill = 0L,
  drop = TRUE
)
# remove prefix of column names
(out <- setNames(out, sub("people_names_", "", names(out), fixed = TRUE)))

非常感谢你的帮助。我真的很感激。

people_names = c("Bob,Megan,Mike,Sarah",
                 "Mike,Sarah",
                 "Megan,Sarah",
                 "Bob")