R 在由逗号分隔的字符向量中查找唯一值,然后进行一次热编码
基本上我有一个用逗号分隔的字符串向量。我希望使用字符串的唯一值进行热编码。我相信我必须先找到唯一的值(用逗号分隔)作为列,然后再进行热编码,但我不确定。例如,假设我有以下字符向量:R 在由逗号分隔的字符向量中查找唯一值,然后进行一次热编码,r,split,one-hot-encoding,R,Split,One Hot Encoding,基本上我有一个用逗号分隔的字符串向量。我希望使用字符串的唯一值进行热编码。我相信我必须先找到唯一的值(用逗号分隔)作为列,然后再进行热编码,但我不确定。例如,假设我有以下字符向量: people_names Bob,Megan,Mike,Sarah Mike,Sarah Megan,Sarah Bob 我希望创建一个热编码的数据帧,对应于如下向量: Bob Megan Mike Sarah 1 1 1 1 0 0 1
people_names
Bob,Megan,Mike,Sarah
Mike,Sarah
Megan,Sarah
Bob
我希望创建一个热编码的数据帧,对应于如下向量:
Bob Megan Mike Sarah
1 1 1 1
0 0 1 1
0 1 0 1
1 0 0 0
谢谢你的帮助。我真的很感激。作为替代,在
splitstackshape
包中有一个helper函数,您可能会发现它很有用。输出是一个矩阵
people_names = c("Bob,Megan,Mike,Sarah",
"Mike,Sarah",
"Megan,Sarah",
"Bob")
library(tidyverse)
data.frame(people_names) %>% # create a dataframe
mutate(id = row_number(), # add row id (useful for reshaping)
value = 1) %>% # add a column of 1s to denote existence
separate_rows(people_names) %>% # create one row per name keeping relevant info
spread(people_names, value, fill = 0) %>% # reshape
select(-id) # remove row id
# Bob Megan Mike Sarah
# 1 1 1 1 1
# 2 0 0 1 1
# 3 0 1 0 1
# 4 1 0 0 0
splitstackshape:::charMat(strsplit(people_names, ","), fill = 0L)
# Bob Megan Mike Sarah
#[1,] 1 1 1 1
#[2,] 0 0 1 1
#[3,] 0 1 0 1
#[4,] 1 0 0 0
从同一个软件包中,您也可以尝试cSplit\u e
library(splitstackshape)
out <- cSplit_e(
data.frame(people_names),
split.col = "people_names",
sep = ",",
mode = "binary",
type = "character",
fill = 0L,
drop = TRUE
)
# remove prefix of column names
(out <- setNames(out, sub("people_names_", "", names(out), fixed = TRUE)))
非常感谢你的帮助。我真的很感激。
people_names = c("Bob,Megan,Mike,Sarah",
"Mike,Sarah",
"Megan,Sarah",
"Bob")