Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/83.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 如何创建一个新变量,该变量的值取决于另一个包含特定单词的变量?_R - Fatal编程技术网

R 如何创建一个新变量,该变量的值取决于另一个包含特定单词的变量?

R 如何创建一个新变量,该变量的值取决于另一个包含特定单词的变量?,r,R,我有一个关于一系列文章的数据集: ID number, Header, Rubric, Article Text, Date. 我想根据内容对文章进行排序,即我想使用“if”语句创建一个新变量: “如果变量‘Article Text’包含字符串‘Second World War’”,则“‘New variable’=1和” “如果“变量‘Article Text’包含单词‘Syrian’”,则“‘新变量’=2 此后,我想根据“new Variable”的值创建新的数据集 我希望能够尝试不

我有一个关于一系列文章的数据集:

ID number, Header, Rubric, Article Text, Date. 
我想根据内容对文章进行排序,即我想使用“if”语句创建一个新变量:

  • “如果变量‘Article Text’包含字符串‘Second World War’”,则“‘New variable’=1和”
  • “如果“变量‘Article Text’包含单词‘Syrian’”,则“‘新变量’=2
  • 此后,我想根据“new Variable”的值创建新的数据集
我希望能够尝试不同的方法,看看哪些方法更有效/给我更正确的分类aricles-like条件反射

  • 一个字
  • 围绕同一主题的几个单词(全部在文本中)
  • 围绕同一主题的几个单词(文本中的一个或多个)
  • 字串
因此,我需要的是帮助理解我需要创建的基本设置,能够使用不同的非常简单的文本分析工具对数据集进行排序


提前感谢

一个最简单的例子是:

# An example data.frame containing some combinations of letters:
data <- data.frame(a=paste0(LETTERS[1:3],LETTERS[3:5]))

# Replace this with the strings you want to search for:
strings <- c("A", "C")
# And this with the names for the new columns:
names(strings) <- c("colA", "colB")

# Search for the strings and create new columns, replace $a according to your column-names:
data <- cbind(data, data.frame(lapply(strings, grepl, data$a)))
#包含一些字母组合的示例data.frame:

对于搜索的每个字符串,我首先使用多个逻辑变量返回数据,因为项目可能包含多个字符串。第二,数据集的形式是什么?您是从文件或数据库中读取它,还是将其作为data.frame或list…非常感谢。你肯定是对的,文章可能包含更多的字符串。我将数据作为R中的数据帧。