Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在语料库中用R组合两个单词_R_Text Mining_Corpus_Text2vec - Fatal编程技术网

在语料库中用R组合两个单词

在语料库中用R组合两个单词,r,text-mining,corpus,text2vec,R,Text Mining,Corpus,Text2vec,这是我的代码 ny <- read.csv2("nyt.csv", sep = "\t", header = T) ny_texte <- as.vector(ny) iterator <- itoken(ny_texte, preprocessor=tolower, tokenizer=word_tokenizer, progressbar=FALSE)

这是我的代码

ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)

iterator <- itoken(ny_texte,
                   preprocessor=tolower, 
                   tokenizer=word_tokenizer, 
                   progressbar=FALSE)

vocabulary <- create_vocabulary(iterator)
  • 比如我的结果
“首席州长库莫(可能的总统竞选活动正在进行中)在第二任期的除夕宣誓就职纽约首席执行官首席州长库莫(可能的总统竞选活动正在进行中)

  • 词汇表

仍然有点难回答您的问题:我们无法运行您的代码,因为我们没有“nyt.csv”。但似乎
gsub()
会满足您的要求:

ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)

ny根据您提供的信息很难回答您的问题。您能添加更多信息吗,包括您正在使用的软件包的信息和a?我更新了帖子
ny[1]
ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)