R 根据其他数据帧映射替换某些行中的值_R_Dplyr_Plyr_Tidyr

R 根据其他数据帧映射替换某些行中的值

R 根据其他数据帧映射替换某些行中的值,r,dplyr,plyr,tidyr,R,Dplyr,Plyr,Tidyr,我有一张表格（d.tab），上面有一对来自调查的问题-答案。有些是单选答案，有些是多选答案。我想从单选答案的数值中查找其文本值。为此，我有一个查找表（d.lookup）我试着将它们合并，但这有点难看，因为我现在必须过滤掉value！=答案\u id。有没有一种更漂亮的方法，可以使用plyr或dplyr或tidyr tab = ' question_id question_type subject value 1 single-choice 1 1 2 multiple-ch

我有一张表格（

d.tab

），上面有一对来自调查的问题-答案。有些是单选答案，有些是多选答案。我想从单选答案的数值中查找其文本值。为此，我有一个查找表（

d.lookup

）

我试着将它们合并，但这有点难看，因为我现在必须过滤掉

value！=答案\u id

。有没有一种更漂亮的方法，可以使用

plyr

或

dplyr

或

tidyr

tab = '
question_id question_type   subject value
1   single-choice   1   1
2   multiple-choice 1   2
3   single-choice   1   2
1   single-choice   2   2
2   multiple-choice 2   3,4
3   single-choice   2   2
'

lookup = '
question_id answer_id   answer_text
1   1   female
1   2   male
3   1   no
3   2   yes
'

d.tab = read.table(text = tab, header = TRUE)
d.lookup = read.table(text = lookup, header = TRUE)

merge(d.tab, d.lookup, by = "question_id", all.x = TRUE)

我不想对

多选

行做任何事情，只要更新原始数据框，用

d.tab

的

answer\u text

中的实际文本替换

value

，前提是

answer\u id

与

值匹配
我知道我能做到：
merge(d.tab, d.lookup, by.x = c("question_id", "value"), by.y = c("question_id", "answer_id"), all.x = TRUE)

但是这给了我一个新的列answer\u text
，原始的值仍然在那里，我不需要它。
你的问题中正确地调用了merge（）
。剩下的就是筛选带有单选答案的行，并选择除value
之外的所有列。使用dplyr，可以按如下方式进行：
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
  mutate(value = as.numeric(as.character(value))) %>%
  merge(d.lookup, by.x = c("question_id", "value"),
        by.y = c("question_id", "answer_id")) %>%
  select(-value)

第二行包含因子变量值
到数值的显式转换。这很重要，因为将因子转换为数字可能会导致奇怪的结果。我将在下面添加几行关于这个主题的内容
请注意，dplyr
还附带了自己的函数来替换merge。如果您的桌子很大，您会注意到这些更有效。使用dplyr
中的left\u join
解决方案如下：
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
  mutate(value = as.numeric(as.character(value))) %>%
  left_join(d.lookup,
            by = c("question_id" = "question_id",
                   "value" = "answer_id")) %>%
  select(-value)

下面是关于我承诺的因素的评论。因子的问题是它们实际上是整数，其中每个整数值都有一个与其关联的标签。当您使用as.numeric（）
将因子简单地转换为数值时，您将得到与标签关联的整数。您几乎肯定会遇到这个数据问题，原因如下
我创建了一个模拟数据的因子变量：
values <- factor(c("1", "2", "3,4", "3", "4"))

这可能不是你所期望的。原因是数字1到5与我们上面定义的五个级别相关联。如果要获得与标签匹配的数字，需要首先转换为字符：
as.numeric(as.character(values[-3]))
## [1] 1 2 3 4

因此，即使merge（）
在某个地方将因子转换为数值，我也不会依赖它以您想要的方式来完成。因此，您应该明确地进行转换。
使用data.table的替代解决方案：
其中：
   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2    3,4
6:           3   single-choice       2    yes


正如@Stibu已经提到的，用多个值分割行可能更好。splitstackshape包中的cSplit
函数示例：
两者都给出：
   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2      3
6:           2 multiple-choice       2      4
7:           3   single-choice       2    yes

您可以通过几个甚至可能具有不同名称的列进行合并。您实际上只想合并单选答案，这是正确的吗？否则，包含3,4
的行将有点棘手。是的，我不想对多选行执行任何操作。这些只是为了表明我只需要替换一部分值；我刚刚注意到我可以做这个多键合并，但它并没有达到我所需要的。这是一些很好的建议，非常感谢！现在，我有一个问题的微小变化。假设我有另一个问题类型likert
，一个只包含列answer\u id
和answer\u text
（例如，答案1表示“强烈不同意”，2表示“不同意”等）的查找表。我将如何替换原始数据框值的子集（假设我保持了原始列value
的完整性）？当我在这里进行合并时，我会得到answer\u text.x
和answer\u text.y
列，对于我将替换它的行，前者仍然是NA。您不就是通过value
和answer\u id
进行合并吗。如果在d.tab
中有许多匹配项，则没有问题。根据需要，查找表中的匹配行只需合并到d.tab
中即可。或者你的问题是关于别的什么？是的，我可以做这个合并，但是假设我之前已经做过另一个合并，所以我已经有一个answer\u text
列，其中包含NA
值，用于question\u type
是likert
的行。如果我再进行一次合并，我已经有了一个answer\u text
列，然后在结果中得到answer\u text.x
和answer\u text.y。如果没有我能理解的数据，这有点难以想象——我当然可以发布一个新问题：）看起来很干净，谢谢！（为什么要在R中实现一件事又有一百万种解决方案？）
   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2    3,4
6:           3   single-choice       2    yes

library(splitstackshape)
cSplit(d.tab, "value", sep=",", 
       direction="long", 
       type.convert = FALSE)[d.lookup, 
                             value := answer_text, 
                             on = c("question_id", "value"="answer_id")]

# or everything in 'data.table'
d.tab[, lapply(.SD, function(x) unlist(tstrsplit(x, ','))), setdiff(names(d.tab),"value")
      ][d.lookup, value := answer_text, on = c("question_id", "value"="answer_id")][]

   question_id   question_type subject  value
1:           1   single-choice       1 female
2:           2 multiple-choice       1      2
3:           3   single-choice       1    yes
4:           1   single-choice       2   male
5:           2 multiple-choice       2      3
6:           2 multiple-choice       2      4
7:           3   single-choice       2    yes