在语料库中用R组合两个单词_R_Text Mining_Corpus_Text2vec

在语料库中用R组合两个单词

在语料库中用R组合两个单词,r,text-mining,corpus,text2vec,R,Text Mining,Corpus,Text2vec,这是我的代码 ny <- read.csv2("nyt.csv", sep = "\t", header = T) ny_texte <- as.vector(ny) iterator <- itoken(ny_texte, preprocessor=tolower, tokenizer=word_tokenizer, progressbar=FALSE)

这是我的代码

ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)

iterator <- itoken(ny_texte,
                   preprocessor=tolower, 
                   tokenizer=word_tokenizer, 
                   progressbar=FALSE)

vocabulary <- create_vocabulary(iterator)

比如我的结果

“首席州长库莫（可能的总统竞选活动正在进行中）在第二任期的除夕宣誓就职纽约首席执行官首席州长库莫（可能的总统竞选活动正在进行中）

```
词汇表
```

仍然有点难回答您的问题：我们无法运行您的代码，因为我们没有“nyt.csv”。但似乎

gsub（）

会满足您的要求：

ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)

ny根据您提供的信息很难回答您的问题。您能添加更多信息吗，包括您正在使用的软件包的信息和a？我更新了帖子
ny[1]

ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)